モジュールの微調整、辞書更新

 化学物質で、「〜-1,6-〜酸」みたいな内容の単語があったとき、途中の「,」が出力抑制文字である為に、この物質名が区切られてしまうというバグがあったので、これを解消すべく手を加えました。
 まず、この「,」を抑制文字にすることをやめ、問題であった、「数字と,」だけの単語がはじかれるようにするため、特定の単語を破棄する段階を、

  if ($strings ne "" && $strings !~ /^([0-9,]+)$|^\w$/ )

とすることで、「,」も数字のように扱う感じにして、破棄するようにしました。
 また、「陥入」という単語が、正しく1名詞としてMeCabで分解されなかったので、これをユーザ辞書に登録しておきました。今後も生物用語によっては正しく分解されないことが考えられるので、その都度直していきます。
 今後、まず生物用語の低頻度辞書を充実させるべく、自分の目で見て生物用語となってほしいなと思うものを、手動で追加していきつつ、モジュールの最適化を図っていこうと思います。
 またさらに長期的には、ユーザからのクエリとは別に、FirstAuthorsの論文をデータベースとして、そこからの情報の抽出、ノイズ除去などの、データマイニングのようなことをするプログラムの作成もやってみようかなと思っています。