MeCab切断・登録部の調整
今回は、MeCabによる形態素分析から、「サ変接続」の名詞で、その形態素の前後に「名詞」のものがないような単語については、生物用語になることがほとんどないことを確かめた上で、その単語を読み捨てるという動作をプログラムに追加しました。形態素$nについて、
if ($strings eq "" && $n->{feature} =~ /サ変接続/) {
if ($n->{next} && $n->{next}->{feature} !~ /名詞/) {
next; # $stringが空で、$nがサ変接続で、$n->nextが名詞でなかったら
}
}
という条件文を追加して実装しました。これにより、「形成」とか「結合」といった単語が検索にかからないようになりました。
次回は、低頻度に残ってしまう「染色体」といった生物用語をサルベージするため、低頻度用の生物用語辞典を作成して頻度解析に用いるというプログラムを作成しようと思っています。