刺身の上にたんぽぽ乗せる日記

プログラミングしたり、自販機の下に落ちてる小銭を集めたりしてます

solr+gosenで日本語形態素解析

2chnavi

面倒くさい。

http://code.google.com/p/lucene-gosen/でnaist-chasen版のdl
solrの3.1使ってたけど、3.5/4.0と書いてあったので、3.5をDL
lucene-gosenのjarをexample/solr/libに置く。libディレクトリはないから自分で作る。
schema.xmlを編集。

適当に見つけた設定ファイルから、辞書の類を削った設定。
流石にそのうちstopwordsとかちゃんとやったほうがいいと思う。

solrconfig.xmlでdataimportの設定を追加
dataimportの設定ファイルを古いやつからコピー
jdbcのjarをexample/solr/libに置く。3.1はdist/でよかったけど3.5はダメだった。
dataimportの設定ファイルで、練習用に取り込むデータを減らす
localhost:*/solr/dataimport?command=full-importで取り込む
多めにimportしようとしたらout of memoryで死んだので、batchSize="-1"をdataimportの設定に加える
indexサイズがngramと比較してやたらでかいな、と思ったらhtmlのタグがstripされてない。striphtmlは反映されない？