単語出現頻度解析Part4

 今回は、MeCab切断後に残ってしまう無意味なひらがな名詞を切り飛ばそうと、新たに出力単語を決める前にひらがなのみの名詞がMeCabリストから帰ってきた場合、それを無視するように設定しました。
 また、頻度計算時に文字列の長さを調べて、日本語なら6文字以上、英単語なら18文字以上の単語について、その単語長×3を頻度として与えるようにし、長い単語が上位にランクインするように変更しました。ちなみに文字の下限はまだ私の勘ですw
 これにより、長い単語につられてほかの単語の出現頻度も大きくなるようになり、生物用語以外の言葉より有意に大きくなりました。あとは、低頻度に残されている重要用語をいかにしてサルベージするかが問題です。