モジュール調整の続き

 新たに追加された論文で、一部正しくMeCabで切断できないところがあったので、モジュールを調整しました。
 まず、前回追加した、数字とそれに続く部分を切断していく部分ですが、

elsif ($strings ne "" && $n->{surface} =~ /^([0-9,]+)$/ && $n->{next}->{feature} =~ /数/) {
$n = $n->{next}; #数→助数詞などは、まず1単語飛ばす

while ($n->{next}->{feature} =~ /接尾|サ変/) { #さらに飛ばす
$n = $n->{next};
}

next;
}

として、飛ばしたい要素であり続ける部分を、while文でまとめて飛ばすように変更しました。これで、「2-アグマチニルシチジン」のような単語も正しく出るようになりました。
 また、「求核攻撃」のような単語が誤って切断されるので、ユーザ辞書に登録してこちらを優先するようにさせました。
 次回以降、調整とともに、Webマイニングの構成を練っていこうと思っています。