2014-01-01から1ヶ月間の記事一覧

トピック解析の実行まで

前回取得した筆者ごとの単語リストから、トピック解析を行って良さそうなトピック数を調べるスクリプト「AuthorTopicExplorer.rb」を書きました。私のGitHubの方に追加しております。 このスクリプトでは、まず「著者ごとの単語リスト」を読込んで、LDAトピ…

検索語から筆者の単語リスト作成まで

前回で一通りのコードがかけたので、今回は実際に検索語を渡して、PubMedでサーチした時の筆者リストと、筆者ごとの使用した単語リストを取得してみました。 まず実行時に引っかかったのが、筆者名に「ø」などの文字が含まれているとき、open-uriではエラー…

筆者の出現頻度リストからAbstract中の単語リストを作成

GENIA taggerを走らせるクラスが簡単に扱えるようになったので、前回までに作っていた論文筆者リストから、それぞれの筆者の論文要旨を検索し、その中の英文を解析して単語頻度リストを作成する部分を作成しました。 以前までに完成していたのは、適当な検索…