単語スコア計算の続き - tabris2012の不定期日記

　前回、ポスター筆者の論文ごとに単語の出現頻度を計算し、さらに論文全体の単語スコアを計算する部分まで実装し、それを全筆者について実行した結果を確認しました。
　まず気になったのは、筆者名で検索した論文が少なかった場合に、研究の特徴を表すような単語のスコアが高くなりにくかったことです。今回の実装では、同じ単語が論文間に出現するほど点数が高くなるので、論文数が少ないと点数があまり高くならなかったようです。このため、単語スコアを計算するのに、論文だけでなく筆者のポスターの英語アブストラクトも使用することにして、文献数を稼ぐことにしました。
　また予想はしていましたが、英文一般に出現する単語がどうしても高スコアになってしまいがちでした。なのでGENIA taggerの、生命科学用語に注釈を付けてくれる機能を使って、GENIA taggerにより生命科学用語だと判定された単語には2倍のスコアを与えることにしました。

　このように実装を変更し、もう一度牧場のマシンで走らせています。結果は次回確認することにして、次に単語スコアリストから筆者をクラスタリングする方法について考えています。とりあえずk個のクラスタに非階層的に分けてみようと思い、kmeans法で分類する方向で行こうと考えています。実装も次回入るつもりです。