2014-01-01から1年間の記事一覧

第五回統合牧場収穫祭

いよいよ大詰め、牧場での本年度の活動を簡単にですが、収穫祭にて発表させていただきました。 今年はあまりやれたことが多くなかったですし、技術開発部のメンバーも少ない中で、少しでも去年から改善できたところをご紹介できればと思い、LTをさせていただ…

今年度のまとめ

さて、統合牧場での仕事も終盤に差し掛かりました。ここで本年度やってきたことをまとめようと思います。 まずやったのは、PubMed APIを使用して、論文のアブストラクトを取得し、その英文から名詞を取り出す、という実装です。そもそもこれがしたかったのは…

GENIA taggerの動作確認

そろそろ牧場での仕事もまとめに入ろうと思い、今回は、今まで作ってきたPubMed検索結果から研究者ネットワーク図を作るRubyコードが、きちんと動くかどうか確認しました。 今まで牧場で使ってきたMacBook Pro(osx 10.5)から、新しく使用するマシン(osx 1…

PubMed検索から関連筆者をグラフ化

前回トピック解析を実装できましたので、今回はその結果を使って、筆者をトピックごとに分けてネットワークグラフを作成するところを実装しました。 使用するネットワークグラフ作成ライブラリは、以前と同じくGvizです。トピック解析では「トピック数がいく…

トピック解析の実行まで

前回取得した筆者ごとの単語リストから、トピック解析を行って良さそうなトピック数を調べるスクリプト「AuthorTopicExplorer.rb」を書きました。私のGitHubの方に追加しております。 このスクリプトでは、まず「著者ごとの単語リスト」を読込んで、LDAトピ…

検索語から筆者の単語リスト作成まで

前回で一通りのコードがかけたので、今回は実際に検索語を渡して、PubMedでサーチした時の筆者リストと、筆者ごとの使用した単語リストを取得してみました。 まず実行時に引っかかったのが、筆者名に「ø」などの文字が含まれているとき、open-uriではエラー…

筆者の出現頻度リストからAbstract中の単語リストを作成

GENIA taggerを走らせるクラスが簡単に扱えるようになったので、前回までに作っていた論文筆者リストから、それぞれの筆者の論文要旨を検索し、その中の英文を解析して単語頻度リストを作成する部分を作成しました。 以前までに完成していたのは、適当な検索…