切断モジュール調整の続き

 今回も、論文をプログラムに渡して、様子を見ながらスクリプトの細かいバグなどを調整しました。
 まず、どうしても残ってしまう「図1a」といった参照の文字列を除外するべく、「図」という文字があって、すぐ次の単語が数字または英字一文字だった場合、「図」「1」「a」と必ず3単語をスルーするコードを追加しました。
 また、固有名詞でも残したい単語があることが分かったので、固有名詞で切るのではなく、「地域」で切ることにしました。これによって、「広島」といった固有名詞は削除されますが、大文字の英字で表される略語「組織」は残るようになりました。生物論文では、このように大文字のアルファベットを連続させて、ある現象を省略して表現することが多いので、これが消えないように調整しました。
 その他、もろもろ自分の想定と異なる動きをする部分を変更し、修正したものをg86サーバに送信しておきました。次回、得られた頻度ファイルから、どの頻度値をボーダーとして使用しないようにするか、それを論文ごとに自分で判定するようなコードを書こうと思っています。とりあえず現行のファイルについて、頻度値の出現頻度で累積度数分布を作成し、様子を確認しました。