単語出現頻度解析Part2

 今回は、単語の出現回数を計算するのに、一度完全一致で調べて、その後正規表現を用いて全ハッシュ内を再度調べて、引っかかるものに元の検索ワードの出現回数を上乗せして、言葉の上位概念に対して偏りが出るようにしました。
 結果、その論文の中核となる単語は多く出てくるようになり、特に実験手法についての生物用語が高頻度になるようになりました。しかしながら、中程度の頻度の中に、生物用語ではないものが混じり、低頻度のところにも大事であると思われる生物用語が残っていました。
 論文のトピックを調べるという用途ではおそらく上手く機能するかと思われますが、生物になじみのない人たちにも分かってもらうためのデータベース作りという意味では、まだまだでした。
 今後は他の論文にも試してみて、傾向をつかんでみようと思います。