MeCabユーザ辞書と低頻度辞書更新&今後の方針

 前回に引き続き、論文をプログラムにかけて、得られた頻度ファイルを見て、生物用語としてふさわしくないものを見つけたので、モジュールの改善を行いました。
 まず、数字の扱いですが、「〜10例」とか、大事な単語の後に、名詞として連続で数字が入ることがあるので、数字がきた後に、「助数詞」や「サ変接続」に分類される場合、これらをまとめて破棄することにしました。
 また、「ヘテロ」という単語が、「へ」「テロ」に分けられてしまうので、MeCabのユーザ辞書に登録しておきました。
 今後の目標をgackel氏と話し合って、生物用語の意味を簡単に調べられるようにWebマイニングを行ったり、そこから生物用語の分類を行うようなプログラムを作成したらおもしろそうだと思ったので、この先、Web上の情報を利用したプログラムの作成を考えてみようと思っています。