Feb 3, 2011

Apache Solr 1.4 Sen の辞書へ単語の追加

まずカスタム辞書を用意します。

カスタム辞書は以下の形式のCSVとします。

見出し語,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音

コストは単語の発生しやすさとのことです。小さい程よく発生する単語とのことで、
3000を基準に発生しやすいものは小さく、そうでないものは大きくするといいようです。

ある単語を登録する時に、何かの複合語になっている場合は、元のそれぞれの単語が
どの程度のコストで登録されているかを辞書ファイルを検索して調べると良いのかな?

あとは、カスタム辞書を用意して、ここでやったように、
辞書のCSVファイルの所に、カスタム辞書を追記して、antを実行して辞書を再生成します。

# vi $SEN_HOME/dic/build.xml

<arg line="customize_dic.csv dic.csv" />

# ant


しかし、、sen の辞書を追加(MkSenDic)したあとに、Tomcat を再起動しないとエラーになります。
実際には先にTomcatを停止した上で辞書の再生成をすることになると思いますが、どうにか起動したままできないものか。。



参考サイト



No comments:

Post a Comment