筆者の出現頻度リストからAbstract中の単語リストを作成
GENIA taggerを走らせるクラスが簡単に扱えるようになったので、前回までに作っていた論文筆者リストから、それぞれの筆者の論文要旨を検索し、その中の英文を解析して単語頻度リストを作成する部分を作成しました。
以前までに完成していたのは、適当な検索ワードをPubMedに投げてヒットした著者の出現頻度を得る部分と、筆者と紐付けられた単語リストを使って筆者間の関係図を作る部分だったので、今回はその間を繋ぐところを作成しました。
まずは筆者リストから、各筆者についてPubMedのAbstractを取得します。Abstract取得は以前作ったメソッドがそのまま使えるので、
author_list.each do |key, value|
if value < 2
break #出現頻度が低ければ終了
end
web_abst.reInit
web_abst.webAbstractByAuthor(key)
web_abst.dumpAbstract
end
として、順番に取得しました。
次に、そのAbstractをGENIA taggerに渡して、名詞を取得します。これも以前のメソッドをそのまま利用し、
files.each_with_index do |filename, i|
print "\r#{i}"
file = open(filename).read
word_list = key_score.getFreq(file)
key_score.dump_doc_word(word_list, output_folder+filename)
end
で取得できました。
これでプログラムは全部揃ったので、次回は実際に関係図を出力して確認してみようと思います。またソースコードが割とバラバラになってしまったので、単純なルーチンに関するコードをまとめていくつもりです。