刺身の上にたんぽぽ乗せる日記

プログラミングしたり、自販機の下に落ちてる小銭を集めたりしてます

solr+gosenで日本語形態素解析

面倒くさい。










適当に見つけた設定ファイルから、辞書の類を削った設定。
流石にそのうちstopwordsとかちゃんとやったほうがいいと思う。

  • solrconfig.xmlでdataimportの設定を追加
  • dataimportの設定ファイルを古いやつからコピー
  • jdbcのjarをexample/solr/libに置く。3.1はdist/でよかったけど3.5はダメだった。
  • dataimportの設定ファイルで、練習用に取り込むデータを減らす
  • localhost:*/solr/dataimport?command=full-importで取り込む
  • 多めにimportしようとしたらout of memoryで死んだので、batchSize="-1"をdataimportの設定に加える
  • indexサイズがngramと比較してやたらでかいな、と思ったらhtmlのタグがstripされてない。striphtmlは反映されない?