MeCabユーザ辞書と低頻度辞書の更新

 FirstAuthorsのページの中で、最近のものを選択しながら、その論文にプログラムを適応させたときの挙動を確かめました。
 まず気になったのが、生物用語としては頻繁に使われ、もはや名詞のようになっている、「翻訳後修飾」とか「分化」といった単語が、MeCabを使用して切断した場合、「語」が「副詞可能」と言われたり、「分化」が「サ変接続」と言われたりで、プログラムが正しく識別できないことがありました。今回もこれらの単語をユーザ辞書に登録していきました。

分化,-1,-1,10,名詞,一般,*,*,*,*,分化,ブンカ,ブンカ
翻訳後修飾,-1,-1,10,名詞,一般,*,*,*,*,翻訳後修飾,ホンヤクゴシュウショク,ホンヤクゴシューショク
ノックダウン,-1,-1,10,名詞,一般,*,*,*,*,ノックダウン,ノックダウン,ノックダウン
中胚葉,-1,-1,10,名詞,一般,*,*,*,*,中胚葉,チュウハイヨウ,チューハイヨー
造血,-1,-1,10,名詞,一般,*,*,*,*,造血,ゾウケツ、ゾーケツ

こんな感じで追加しました。今はまだユーザ辞書に登録する単語が多くないので、各単語のエントリーを弄ったりはしていませんが、今後増えてきたら、「生物用語」みたいなエントリーを付けて、プログラム実行時にまとめて処理できるようにしようとも思っています。
 また、低頻度辞書が自動更新されていたので、そこから不要なものを移したり、かぶったエントリーをまとめたりしました。また、特定の論文について、生物用語として上位になってほしいなと思うものは、手動で追加しました。