Pythonでクラスタリング
http://pypi.python.org/pypi/cluster/1.1.0b1
これかなぁ。
とりあえずk-means法で適当にクラスタリングしてみたけど、結構時間がかかる。
適当に400次元空間とか遅すぎる。
追記:
記事タイトルを形態素解析して、全抽出した単語から、出現頻度が一定以上のものだけを抜き取って、全記事に単語の有無で座標を作ってk-means法でクラスタリング、という手法をとってみたけど、いまいちな感じがする。
どちらかというと、記事をクラスタリングするのではなく、形態素解析した単語をクラスタリングして、関連している単語を集めて、それをキーワードに記事を集めるほうが良い気がする。