単語リストの修正とLDAパラメータ調整

 前回まで、ポスター筆者の単語リストを作成するとき、ポスターのアブストラクトとその筆者が発表した論文のアブストラクトをまとめて、単語リストとスコアを生成していました。しかしそれだと、そのポスター発表会における研究内容とはずれてきてしまうので、今回、ポスターのアブストラクトの単語を重視して単語リストを作成しなおしました。

 まずポスターのアブストラクトの名詞を回収して頻度を保持します。その後、その筆者の論文アブストラクトと照らし合わせて、そちらでも出現する単語について、出現数を加算していくようにしました。

 この方法ですべての筆者についての単語リストを作成しましたが、やはり「result」や「study」といった名詞がスコア上位に来てしまうようです。
 これらの単語を除くため、今回も出力抑制リストを作成することにしました。まずは全員の単語リストを統合し、スコア上位のものを見ていって、生物学用語としては意味を持たないものを、出力抑制リストに手動で追加していきました。
 今のところは私が目で見て判断していますが、今後、一般的な英文から出現数の高い単語のリストを作って、それを使用することにしようと考えています。

 そして、筆者ごとにまとめた単語リストを、前回同様LDAモデル解析を行いました。ここでも試すことがあって、まずギブスサンプリングの回数をどうするか、またハイパーパラメータのαをどのように設定するか、検討の余地があります。
 サンプリング数を増やしたり、αを変化させたりすることで、得られるトピックを確認しています。また、トピック数をいくつにするのかも問題です。
 トピック数を増やせば、その分あるトピックに分類されるポスター数が増えるので、どのトピックにも分類されなかったポスターを減らすことができます。このあたりも推定精度との兼ね合いになるので、今後様子を見ていこうと思います。