用語の足切りライン考察

 また新たな論文に対応すべく、低頻度辞書と不用語辞書の更新と、ユーザ辞書の生成の行いました。まだ不用語辞書の構成は自動ではないので、手動でやりつつどんな感じにプログラムを書いていこうか考えることにします。
 また、生物用語とそうでない単語を分けるための基準を考えるべく、いくつかの頻度ファイルから累積度数分布を作成し、Zipfの法則のように出現数がそのランクのべき乗で表せないか調べてみました。
 OpenOfficeのCalcにタブ区切りで読み込ませ、累積度数分布とべき乗近似を計算させました。

 いくつか調べたところ、数式の係数がだいたい似ていたので、これらを一般化してプログラム内で利用しようと思っています。