刺身の上にたんぽぽ乗せる日記

プログラミングしたり、自販機の下に落ちてる小銭を集めたりしてます

2011-11-01から1ヶ月間の記事一覧

続・最近の話題抽出

適当にクラスタリングしてみたらこんな感じになった。 ハ 8 ヤバイ 8 ソフトバンク 8 部分 9 ゆき 9 ドイツ 12 小林 15 完全 17 アメリカン, 航空 22 プラス, NEW, ラブ 28 民団, 外国, 異論 32 白, 旭, ヤクザ, ゴルフ 33 お前, 社長, 社員 39 バス, 地下鉄…

最近の話題抽出

とりあえずクラスタリングは置いといて、単純に最近の話題の抽出を行ってみた。 方法は単純に最新1000件とその前の1000件で出てくる単語の比較。 8 栄子 名詞,固有名詞,人名,名,*,*,栄子,エイコ,エイコ 8 ヤクザ 名詞,一般,*,*,*,*,ヤクザ,ヤクザ,ヤクザ 8 …

solr TermsComponent

Apache solrの本を立ち読みしてたら丁度必要っぽいのがあった。 http://wiki.apache.org/solr/TermsComponent これで単語の出現頻度がわかるわけだけど、残念ながらコーパス全体にかけるだけだから、最近のデータだけ、とかはできない。 もうこれは自力でmec…

Pythonでクラスタリング

http://pypi.python.org/pypi/cluster/1.1.0b1これかなぁ。 とりあえずk-means法で適当にクラスタリングしてみたけど、結構時間がかかる。 適当に400次元空間とか遅すぎる。追記: 記事タイトルを形態素解析して、全抽出した単語から、出現頻度が一定以上の…

ブログ記事タイトルの形態素解析

適当にやった。名詞だけを抽出して何かしら面白い結果が得られるか見てみた。 データセットは最近の3000件。 ロシア 33 メンバー 34 夫 34 www 34 体調 35 ー 37 スライム 37 声 39 Part 39 iPhone 39 話題 40 フジテレビ 43 五輪 44 人気 44 声優 46 ピ…

mac + cmecab-javaの1.7

ファイルとかはここ。http://code.google.com/p/cmecab-java/ http://code.google.com/p/cmecab-java/wiki/HowToInstall http://kazuakey.blogspot.com/2010/12/solr-14-cmecab-java.html http://code.google.com/p/cmecab-java/wiki/HowToUse 辺りを参考に…

anちゃん 1.2.69リリース

板長押しで選択される板がずれているバグの修正 1.2.68はリリースし忘れてたけど、配色の選択時にキャンセルするとフリーズするバグの修正。

solrデータ削減計測

とりあえず今日一日のデータで比較。 実行中にデータが増えてるかもしんないから、多少のずれはあるかも。一番期待していたomitTermFreqAndPositionsはやはり想像通り日本語検索がまともに動かなくなる。普通に考えるとどうせデフォルトはn-gramだろうから、…

2chnaviを動かしてるlinodeのリサイズ

ディスクを使いきって、2日間全くアップデートされてなかった。意外と気づかないもんだ。 多分solrのindexを作りなおせば時間稼ぎができたとは思ったけど、時間の問題だろうから、もう諦めてlinodeの大きいプランに切り替えることにした。 そもそも512MBで動…