2013-07-01から1ヶ月間の記事一覧

単語スコア計算の続き

前回、ポスター筆者の論文ごとに単語の出現頻度を計算し、さらに論文全体の単語スコアを計算する部分まで実装し、それを全筆者について実行した結果を確認しました。 まず気になったのは、筆者名で検索した論文が少なかった場合に、研究の特徴を表すような単…

論文間単語スコアの計算

GENIA taggerを使った単語数計算ができるようになったので、今回は、論文アブストラクトごとに計算した単語数から、全体の出現単語のスコアを算出する部分を実装しました。 あるポスターの筆者が過去に出した論文n本に対して、1つずつアブストラクトから英単…

GENIA taggerを使ってみる

今までは英語の品詞解析にEngTaggerを用いていましたが、名詞を抽出するだけでも複数形と単数形が別々に数えられてしまうので、各単語の原形を解析して返してくれるソフトを探しなおしました。 この条件を満たす形態素解析プログラムとして、「GENIA tagger…

データの整理と名詞出現頻度解析クラス作成の続き

前回の調整で、ほとんどのポスター著者の文献を回収することができていました。今回はそれらの出力ファイルを読み出して、文献の品詞解析と各名詞へのスコア付けを行う部分を実装しました。 まずは各ポスターIDからWebで検索した文献データをロードして、文…