RSSクローリングの仕組みを改善
高速化!高速化!
- RSSが更新されているかをチェックし、更新されていない場合、解析・DBに追加の作業などを省略
- 記事テーブルにインデックスを追加
特に前者の修正をしたらやたら速くなったね。サーバがしょぼくて、DBの問い合わせのコストが馬鹿みたいに高いからな。
magpie rssでRSSが更新されているかのチェックは、
$rss = fetch_rss($rssurl);
if($rss->from_cache){
echo "not modified\n";
}
こんな感じな。magpieはよくできてんだが、APIレファレンスが無いのがうぜぇ。
後者に関しては相談してみたら「記事のURLをインデックスに指定してる?」と言われて、追加してみたらやたら速くなった。
どう見てもど素人です。本当にありがとうございました。