2011-11-01から1ヶ月間の記事一覧
適当にクラスタリングしてみたらこんな感じになった。 ハ 8 ヤバイ 8 ソフトバンク 8 部分 9 ゆき 9 ドイツ 12 小林 15 完全 17 アメリカン, 航空 22 プラス, NEW, ラブ 28 民団, 外国, 異論 32 白, 旭, ヤクザ, ゴルフ 33 お前, 社長, 社員 39 バス, 地下鉄…
とりあえずクラスタリングは置いといて、単純に最近の話題の抽出を行ってみた。 方法は単純に最新1000件とその前の1000件で出てくる単語の比較。 8 栄子 名詞,固有名詞,人名,名,*,*,栄子,エイコ,エイコ 8 ヤクザ 名詞,一般,*,*,*,*,ヤクザ,ヤクザ,ヤクザ 8 …
Apache solrの本を立ち読みしてたら丁度必要っぽいのがあった。 http://wiki.apache.org/solr/TermsComponent これで単語の出現頻度がわかるわけだけど、残念ながらコーパス全体にかけるだけだから、最近のデータだけ、とかはできない。 もうこれは自力でmec…
http://pypi.python.org/pypi/cluster/1.1.0b1これかなぁ。 とりあえずk-means法で適当にクラスタリングしてみたけど、結構時間がかかる。 適当に400次元空間とか遅すぎる。追記: 記事タイトルを形態素解析して、全抽出した単語から、出現頻度が一定以上の…
適当にやった。名詞だけを抽出して何かしら面白い結果が得られるか見てみた。 データセットは最近の3000件。 ロシア 33 メンバー 34 夫 34 www 34 体調 35 ー 37 スライム 37 声 39 Part 39 iPhone 39 話題 40 フジテレビ 43 五輪 44 人気 44 声優 46 ピ…
ファイルとかはここ。http://code.google.com/p/cmecab-java/ http://code.google.com/p/cmecab-java/wiki/HowToInstall http://kazuakey.blogspot.com/2010/12/solr-14-cmecab-java.html http://code.google.com/p/cmecab-java/wiki/HowToUse 辺りを参考に…
板長押しで選択される板がずれているバグの修正 1.2.68はリリースし忘れてたけど、配色の選択時にキャンセルするとフリーズするバグの修正。
とりあえず今日一日のデータで比較。 実行中にデータが増えてるかもしんないから、多少のずれはあるかも。一番期待していたomitTermFreqAndPositionsはやはり想像通り日本語検索がまともに動かなくなる。普通に考えるとどうせデフォルトはn-gramだろうから、…
ディスクを使いきって、2日間全くアップデートされてなかった。意外と気づかないもんだ。 多分solrのindexを作りなおせば時間稼ぎができたとは思ったけど、時間の問題だろうから、もう諦めてlinodeの大きいプランに切り替えることにした。 そもそも512MBで動…