2013-08-01から1ヶ月間の記事一覧

トピックモデル解析とポスターの分類について

前回上手く行かなかった、RubyからのMeCabの呼び出しですが、Rubyの外部コマンド呼び出しに使うライブラリの「Open3」を用いた方法を紹介されていた、hirokan55の日記様の記事から参考にして、上手く呼び出すことができるようになりました。 def mecab_exec(…

日本語単語によるトピック解析

英単語によるトピック数調整を考えていて、各トピックごとにどれだけの筆者が分類されるのかを調べていたところ、トピック数6のときに、トピック0番により多くの筆者が分類されていることがわかりました。 その後、トピック数6でトピック0番での出現確率が高…

トピック数決定の基準

LDAによるトピックモデル解析についてさらに調査と考察を行いました。今回のトピック解析の目的は、数千件のポスターをいくつかのクラスタに分け、その中で文章間関連度解析を行おうとしていました。その中で、各トピッククラスタがどれだけの文章数を内包す…

単語リストの修正とLDAパラメータ調整

前回まで、ポスター筆者の単語リストを作成するとき、ポスターのアブストラクトとその筆者が発表した論文のアブストラクトをまとめて、単語リストとスコアを生成していました。しかしそれだと、そのポスター発表会における研究内容とはずれてきてしまうので…

単語リストのトピックモデル解析

ポスター著者ごとの単語リストを作成したのですが、これからどのように似た研究分野をクラスタリングすればいいのかを考えていました。 すると、牧場名産品である「PCRH(プーアル茶)」で利用されている、LDA(Latent Dirichlet Allocation)という、トピッ…