追加禁止単語リストの作成・利用

 低頻度辞書をみて、ここに出てきてしまう生物用語ではない単語について、MeCabによる解析時に、頻度ハッシュに追加しないようにする為のテキストファイルを自作し、ここに書かれている単語を実行時に読み出し、ハッシュへの追加を抑制するように、モジュールを変更しました。
 これにより、「結果」とか「それぞれ」といった無関係な単語が、頻度解析ファイルに残らないようになりました。それに伴って、これらの単語が低頻度リストに登録されることもないので、他の論文に対して影響を与えることもなくなりました。
 次回はさらにいろいろな論文に試して、必要ない単語・ヒットするべき生物用語をもっと調べられるように、追加禁止・促進ファイルを作っていこうと思っています。