刺身の上にたんぽぽ乗せる日記

プログラミングしたり、自販機の下に落ちてる小銭を集めたりしてます

feedparser置き換え

2chnaviのサービスを運用するにあたって、リソースのボトルネックは何かというと、実はCPUが一番きつい。HDDと違って足りなかったら遅くなるだけでよかったんだけど、流石に全てのフィードをとってパースするのに1時間以上かかるのは、1万以上のRSSがあるとはいえ遅すぎる。

http://d.hatena.ne.jp/kudzu/20120403/1333449336

にも書いたけど、原因はfeedparserの実装が糞遅いから。涙がでるほど遅い。

で、ちょっと調べてたらspeedparserというfeedparserとある程度互換があるfeedparserの実装があったので、試してみた。

https://github.com/jmoiron/speedparser

pypiでパッケージがあったので、pip install speedparserで入れた。

てきとうに2chnaviに登録してあるrssを100ほどdlしてみて、2つのパーサが生成するオブジェクトのフィールドを比べてみたところ、更新日時の解釈が若干違うけど、url、コンテンツ、タイトルなどは割と互換に見える(追記:コンテンツはfeedparserのほうがタグの正規化などを行ってしまうため、完全マッチはできなかった。SANITIZE_HTML=0でも同様)。100くらいしかまだ試してないから、もしかしたらエンコーディングとか色々と細かいところで気が利かないのかもしれんけど。

参考までに速度を一部載せておくと、

5.380 vs 172.251 index.html?xml.15
4.532 vs 1421.450 rss.1
2.985 vs 122.598 index.rdf.21
11.675 vs 910.587 index.html?xml.5
1.524 vs 131.796 index.rdf.6
3.764 vs 487.475 index.rdf.12
5.577 vs 593.087 index.rdf.36
3.477 vs 276.774 index.rdf.43
14.047 vs 7256.265 index.rdf.23
3.561 vs 90.582 index.html.1
4.213 vs 806.865 index.rdf.5
3.599 vs 542.688 index.rdf.34
1.437 vs 432.654 index.html
6.362 vs 1437.406 index.rdf.42
3.384 vs 272.167 index.html?xml.8
5.521 vs 1194.197 index.rdf.47
3.104 vs 143.062 index.rdf.28
3.376 vs 152.067 index.html?xml.12
4.367 vs 872.829 index.rdf.2
14.783 vs 9165.716 talk?feed=rss2
6.751 vs 980.692 index.rdf.19
1.984 vs 205.695 index.html?xml.18
3.122 vs 225.296 index.rdf.18
36.107 vs 19888.307 index.html.4
3.402 vs 316.764 index.rdf.54
2.829 vs 226.778 index.rdf.32
4.423 vs 1081.482 index.rdf.3
5.801 vs 1916.120 index.html.2
25.172 vs 6872.890 gamble?feed=rss2
4.735 vs 846.101 index.rdf.15
11.688 vs 6284.851 pc?feed=rss2
3.572 vs 374.356 index.rdf.7
3.788 vs 377.102 index.rdf.53
4.442 vs 795.737 index.rdf.4
27.751 vs 18444.048 manga?feed=rss2
3.590 vs 524.870 index.rdf.14
2.967 vs 221.017 index.rdf.48
3.441 vs 568.598 index.rdf.20
2.940 vs 303.711 index.rdf.13
8.368 vs 3125.123 index.html?feed=rss2
4.147 vs 139.066 index.html?xml.2
8.120 vs 1324.849 index.rdf.40
3.152 vs 133.390 index.rdf.52
3.258 vs 290.415 index.rdf.44
7.013 vs 96.820 rss
2.808 vs 181.106 index.rdf.22
2.967 vs 233.972 index.rdf.50
3.104 vs 421.921 index.rdf.39
6.247 vs 1839.871 index.rdf.29
2.168 vs 89.000 index.html?xml.19
2.829 vs 178.847 index.rdf.16
2.832 vs 161.458 index.rdf.51
2.636 vs 186.148 index.rdf.24
15.118 vs 7562.889 feed.3
3.090 vs 253.103 index.rdf.10
2.158 vs 205.923 index.html?xml.9
2.976 vs 229.955 index.rdf.1
3.398 vs 446.549 index.rdf.31
3.053 vs 276.134 index.rdf
1.991 vs 169.961 index.html?xml.3
11.469 vs 1167.462 index.html?xml.1
3.876 vs 626.648 index.rdf.30
5.847 vs 1982.844 index.html.3
2.025 vs 167.217 index.html?xml.17
3.242 vs 147.577 index.html?feed=rss2.2
16.571 vs 10932.801 sports?feed=rss2
2.047 vs 70.548 index.html?xml
3.254 vs 276.725 index.rdf.41
1.998 vs 158.414 index.html?xml.11
1.994 vs 210.396 index.html?xml.14
3.120 vs 258.864 index.html?feed=rss2.1
15.106 vs 8625.756 index.html?xml.7
4.855 vs 1182.983 feed.1
1.979 vs 160.850 index.html?xml.16
3.355 vs 428.056 index.rdf.35
11.931 vs 1417.789 feed.4
3.353 vs 307.679 index.rdf.45
3.776 vs 474.214 index.rdf.8
1.795 vs 50.013 index.html?xml.4
10.671 vs 6183.113 music?feed=rss2
3.641 vs 310.649 index.rdf.38

speedparserはclean_html=False、feedparserはfeedparser.PARSE_MICROFORMATS = 0を設定。
単位はmsecで、左がspeedparser、右がfeedparser。正確な数字をとるために何度も回したりとかはしてないけど、別にそんなことしなくても余裕でわかるくらい差が出てる。
ざっくりspeedparserが数十-数百倍くらい速い。feedparserがいかに遅いかよくわかると思う。

もう少しtestcase追加してunittest全部通したらdeployしてみようかと思う。

追記:

一時間以上かかってたクロールが3分もかからなくなった。
しかもその3分の大部分がいくつか返事が返ってこないフィードの待ち時間で、過半数はあっという間に終わってた。

右端のところが新しいparserを使ったところで、見ての通り、ピークが100%にいかなくなってる。互換性の問題で移植できなかった部分はfeedparserのままにしておいたせいで多分まだ高めになってる。その処理自体はioのほうがボトルネックになるから、気にしなくていいかな、と思って放置してる。

追記2:

べ、別に都合のいい部分だけ切り抜いたわけじゃないんだからね、ということでピークがすぎる部分も載せてみる。ピークが小さくなった上に、圧倒的に短くなってるのがよくわかると思う。