データの整理と名詞出現頻度解析クラス作成の続き

 前回の調整で、ほとんどのポスター著者の文献を回収することができていました。今回はそれらの出力ファイルを読み出して、文献の品詞解析と各名詞へのスコア付けを行う部分を実装しました。
 まずは各ポスターIDからWebで検索した文献データをロードして、文献ごとにハッシュに登録しておき、その後順番に品詞解析を行う、という手続きを経るようにしました。文献ごとに品詞解析を行うことで、文献間で共通して登場する単語にさらにボーナス得点を与えようと考えています。
 品詞解析には、以前試したEngTaggerを使用しています。「add_tags」で品詞分類タグをつけて、「get_noun」で名詞の出現頻度を得ることができました。

 また、得られた文献データとEngTaggerの出現頻度出力を確認してみましたが、ポスターの内容に関連する文献や名詞が得られているようです。しかし筆者名の同姓同名問題や、名詞の複数形変化の問題も残っています。とりあえず精度に関わる問題は置いておいて、現在の構想でどれだけの情報が得られるかを確認してみるところまで進めてみようと思っています。
 次回は文献間の共通性を考慮した、最終的なスコア付けを行うところまでやりたいと思います。