刺身の上にたんぽぽ乗せる日記

プログラミングしたり、自販機の下に落ちてる小銭を集めたりしてます

2011-11-28から1日間の記事一覧

solr TermsComponent

Apache solrの本を立ち読みしてたら丁度必要っぽいのがあった。 http://wiki.apache.org/solr/TermsComponent これで単語の出現頻度がわかるわけだけど、残念ながらコーパス全体にかけるだけだから、最近のデータだけ、とかはできない。 もうこれは自力でmec…

Pythonでクラスタリング

http://pypi.python.org/pypi/cluster/1.1.0b1これかなぁ。 とりあえずk-means法で適当にクラスタリングしてみたけど、結構時間がかかる。 適当に400次元空間とか遅すぎる。追記: 記事タイトルを形態素解析して、全抽出した単語から、出現頻度が一定以上の…

ブログ記事タイトルの形態素解析

適当にやった。名詞だけを抽出して何かしら面白い結果が得られるか見てみた。 データセットは最近の3000件。 ロシア 33 メンバー 34 夫 34 www 34 体調 35 ー 37 スライム 37 声 39 Part 39 iPhone 39 話題 40 フジテレビ 43 五輪 44 人気 44 声優 46 ピ…