論文間単語スコアの計算

 GENIA taggerを使った単語数計算ができるようになったので、今回は、論文アブストラクトごとに計算した単語数から、全体の出現単語のスコアを算出する部分を実装しました。
 あるポスターの筆者が過去に出した論文n本に対して、1つずつアブストラクトから英単語の出現数を求め、それを初期スコアとします。次に、n本の論文について各々計算した出現数を足し合わせて値xとし、さらに何本の論文に共通して出現したかも計算して値yとします。最後にその筆者の研究に関係する英単語のスコアとして、x*yとしました。
 すなわち、その筆者の研究に関連する英単語を、(各論文に出現した回数)×(1回でも出現した論文数)のスコアで順位付けしてみたことになります。これでいくつかの論文について確認してみましたが、その人が何をしているのかそれなりに分かりそうな単語が高順位に来ていたので、とりあえずこの計算方法で全筆者の結果を見てみようと考えています。

 前回作成したGENIA taggerのサーバプログラムを牧場のマシンに移動し、スコア計算スクリプトを走らせてみました。次回はその結果を見て、もう少し抑制単語リストなどを用意して調整するか、このままクラスタリングへ移行するかを考えようと思います。