細かなバグ取り終了

 今回も頻度解析モジュールのバグ取りです。数字が","で繋がっていると残ってしまうという問題があって、"12,13"みたいな無意味な数字が表示されていました。これを破棄するため、単語追加時に","も終了判定に用いて、数字を破棄させました。

if ($n->{feature} !~ /名詞|アルファベット/
  || $n->{feature} =~ /非自立|代名詞|形容|副詞|地域/
  || $n->{surface} =~ /\Q)\E|)|,|,|〜/ )

というような終了判定に、今のところなっています。
 また、「転写」「複製」などの言葉は生物論文では頻出ですが、これらがシステム辞書ではサ変接続とみなされ、解析時に落ちてしまうので、これらの単語をユーザ辞書に登録しました。
 さらに、低頻度辞書と不用語辞書の使用方法も見直し、不用語辞書は、辞書に登録されている単語が、現行の単語を含む場合に、その現行の単語を破棄するようにし、低頻度辞書は、辞書に登録されている単語を、現行の単語が含んでいる場合に、その現行の単語の頻度を増加させるようにしました。/\Q$m/と、パターンマッチさせるときに、どちらをこの//の中に入れるかで、意味が変わってしまうので、注意して上記のように動くようにしておきました。
 さて、今後は生物用語と一般用語の線引きを決めるため、どこかニュースサイトを一つ決めて、このプログラムを動かしてみて、様子を見てみようと思っています。