刺身の上にたんぽぽ乗せる日記

プログラミングしたり、自販機の下に落ちてる小銭を集めたりしてます

Pythonでクラスタリング

http://pypi.python.org/pypi/cluster/1.1.0b1

これかなぁ。
とりあえずk-means法で適当にクラスタリングしてみたけど、結構時間がかかる。
適当に400次元空間とか遅すぎる。

追記:
記事タイトルを形態素解析して、全抽出した単語から、出現頻度が一定以上のものだけを抜き取って、全記事に単語の有無で座標を作ってk-means法でクラスタリング、という手法をとってみたけど、いまいちな感じがする。
どちらかというと、記事をクラスタリングするのではなく、形態素解析した単語をクラスタリングして、関連している単語を集めて、それをキーワードに記事を集めるほうが良い気がする。