solr+gosenで日本語形態素解析
面倒くさい。
- http://code.google.com/p/lucene-gosen/でnaist-chasen版のdl
- solrの3.1使ってたけど、3.5/4.0と書いてあったので、3.5をDL
- lucene-gosenのjarをexample/solr/libに置く。libディレクトリはないから自分で作る。
- schema.xmlを編集。
適当に見つけた設定ファイルから、辞書の類を削った設定。
流石にそのうちstopwordsとかちゃんとやったほうがいいと思う。
- solrconfig.xmlでdataimportの設定を追加
- dataimportの設定ファイルを古いやつからコピー
- jdbcのjarをexample/solr/libに置く。3.1はdist/でよかったけど3.5はダメだった。
- dataimportの設定ファイルで、練習用に取り込むデータを減らす
- localhost:*/solr/dataimport?command=full-importで取り込む
- 多めにimportしようとしたらout of memoryで死んだので、batchSize="-1"をdataimportの設定に加える
- indexサイズがngramと比較してやたらでかいな、と思ったらhtmlのタグがstripされてない。striphtmlは反映されない?