モジュール調整の続き
新たに追加された論文で、一部正しくMeCabで切断できないところがあったので、モジュールを調整しました。
まず、前回追加した、数字とそれに続く部分を切断していく部分ですが、
elsif ($strings ne "" && $n->{surface} =~ /^([0-9,]+)$/ && $n->{next}->{feature} =~ /数/) {
$n = $n->{next}; #数→助数詞などは、まず1単語飛ばす
while ($n->{next}->{feature} =~ /接尾|サ変/) { #さらに飛ばす
$n = $n->{next};
}
next;
}
として、飛ばしたい要素であり続ける部分を、while文でまとめて飛ばすように変更しました。これで、「2-アグマチニルシチジン」のような単語も正しく出るようになりました。
また、「求核攻撃」のような単語が誤って切断されるので、ユーザ辞書に登録してこちらを優先するようにさせました。
次回以降、調整とともに、Webマイニングの構成を練っていこうと思っています。