ユーザ辞書の応用&続・足切りライン考察

 今まで、「細胞どうし」とか「文字どおり〜」といった接続された名詞が残ってしまっていたので、これを排除すべく、ユーザ辞書に、頻度解析時に無視するように設定してある「非自立」というエントリーを無理矢理付加させて登録し、きれいに「細胞」だけが残るようにしました。

どうし,-1,-1,10,名詞,非自立,一般,*,*,*,どうし,ドウシ,ドーシ
ごと,-1,-1,10,名詞,非自立,一般,*,*,*,ごと,ゴト,ゴト
文字どおり,-1,-1,10,名詞,非自立,一般,*,*,*,文字どおり,モジドオリ,モジドーリ
レベル,-1,-1,10,名詞,非自立,一般,*,*,*,レベル,レベル,レベル
自体,-1,-1,10,名詞,非自立,一般,*,*,*,自体,ジタイ,ジタイ

みたいな感じで追加してあります。
 さらに、前回の続きで足切りラインを決めるべく、最新の7本の論文の頻度ファイルを結合し、その頻度値の常用対数を取って、全体の中での位置と比較したグラフを作成しました。

左から見て、ギザギザでなくなっていく部分が、ちょうど生物用語になっていく部分なので、この約45%ラインが妥当ではないかと思われます。今後、一般の文章でも同様の傾向を調べてみて、この仮説が正しいか調べていこうと思っています。