刺身の上にたんぽぽ乗せる日記

プログラミングしたり、自販機の下に落ちてる小銭を集めたりしてます

RSSクローリングの仕組みを改善

高速化!高速化!

  • RSSが更新されているかをチェックし、更新されていない場合、解析・DBに追加の作業などを省略
  • 記事テーブルにインデックスを追加

特に前者の修正をしたらやたら速くなったね。サーバがしょぼくて、DBの問い合わせのコストが馬鹿みたいに高いからな。
magpie rssRSSが更新されているかのチェックは、

$rss = fetch_rss($rssurl);
if($rss->from_cache){
echo "not modified\n";
}

こんな感じな。magpieはよくできてんだが、APIレファレンスが無いのがうぜぇ。

後者に関しては相談してみたら「記事のURLをインデックスに指定してる?」と言われて、追加してみたらやたら速くなった。
どう見てもど素人です。本当にありがとうございました。