PubMedで検索した論文一覧から筆者の出現頻度リストを作る

 前回までで、筆者ごとにまとめられた単語リストから、研究トピックと筆者のネットワーク図を作ることができるようになりました。なので、そのプログラムを使って何ができるかを試すため、簡単な応用先を考えることにしました。
 そこで、自分の研究に近いことをやっている人を探すために、PubMedなどで検索ワードを与えて、出てきた論文の筆者と内容を確認する、という作業を自動化することを考えました。筆者のリストは出現頻度から作成し、その筆者の論文内容をトピック解析することで、内容を可視化していく、という構想を立てています。
 作るプログラムとして具体的には、まず使用者からの検索クエリを受け付け、そのワードでPubMed APIをたたいて論文ID一覧を手に入れます。このとき、検索クエリをMesh wordsに当てて、該当するMesh wordsでAPIをたたくようにすると、より精度が良くなるかと思っています。
 次に、論文ID一覧から論文著者一覧のxmlを得て、パースして著者の出現頻度を計算します。そして、出現頻度の高い筆者について、論文のAbstractから単語を抽出し、トピック解析→ネットワーク図作成、という前回までの流れにのせようと思っています。

 今回は、まずAPIをたたくRubyスクリプトを書くところから入りました。前に作ったAPI操作用のクラスがあったので、これをリファクタリングしつつ、クエリから著者一覧が得られるところまでできました。次回は、著者の出現頻度リストを作成するところから入っていこうと思っています。