低頻度リストの作成・利用

 今回は、頻度解析の部分にプログラムを追加し、各々の論文における低頻度出現単語を一つのファイルにまとめて、それらが別の論文で高頻度で出現していれば、それを低頻度辞書として登録していくようにしました。
 まず、低頻度と言えるボーダー値よりも低い単語を低頻度リストに登録し、既に低頻度リストに単語があるときは、より高頻度の値を取っておくようにしました。
 次に、新たな論文を検索したときに、低頻度リストにマッチする単語がある場合、その頻度値を上昇させ、ある一定値よりも大きくなったら、別の「低頻度辞書」に登録するようにしました。今後論文の検索を行うときに、低頻度辞書に登録されている単語については、その語の重みをさらに上昇させるようになっています。
 このように仕様を変更したMeCab切断部のモジュールをg86サーバにアップロードしたので、ウェブから実行させるときも低頻度辞書を更新していくようになりました。
 低頻度辞書にも生物用語でない単語が混じってしまうことが多々あるので、これを削除できるようにしていければ良いかと思っています。