MeCab切断モジュールの試行錯誤

 20通ほどの論文を現プログラムに渡して、どのように切断されてくるか、再びチェックしていきました。
 まず、低頻度辞書から生物用語でないものを探してきて、それを破棄リストに手動で追加してく作業を行いました。「数」とか「レベル」など、よく論文内で使われますが、MeCabの結果からはじくのが難しい単語が残るので、これらをMeCabとは別に検索して破棄するようにしました。
 その後、MeCabが提示してくれる単語の属性を確認しながら、必要ない単語を破棄するようにする作業を行いました。今回調べた論文で、「スコットランド」といった"固有名詞"に分類されるような単語がヒットしてしまうことがあったので、これをスルーするようにしました。
 その他細かいところをチェックして、内容がほぼ生物のものに限られてくるような論文では、ほぼ正しくチェックが行えるようになりました。今後は、生物と関連させた一般的な論文など、なかなかチェックが上手くいかない論文から、いかに生物用語を抽出するか、考えていこうと思っています。