トピック解析に用いる単語の選別

 全ポスターからMeCabを用いて取得した名詞句を使ってトピック解析を行ってきましたが、トピックに特徴的だと判定された単語リストを見ると、全体的なトピックに関連しそうな単語だったり、「目的」とか「本研究」といった一般的すぎてあまり意味の無い単語が上位にきてしまっていて、トピックの内容がよく分からない状態でした。

 なので今回、解析にかける前の単語リストから、上記のような単語を選択して除くことにしました。除く基準はほとんど恣意的ですが、全ポスターの中で出現頻度が高い単語の中で、単語を読んでみてポスターの内容とは繋がらなさそうな単語を抜いていきました。
 この「ストップワードリスト」を作成し、トピック解析にかけるフォーマットに変えるときに、ファイルを読込んで単語がマッチするなら除く、というスクリプトで単語を外していきました。
 ストップワードリストは、以下のような単語が含まれています。単語の右には全ポスターでの出現頻度が記述してあります。

データ 232
データベース 75
情報 72
DB 26
論文 19
NBDC 17
効率 13
対象 11
研究者 10
分野 9
指針 8
国内 7
他 7
成果 7
リソース 7
目的 7
DBCLS 7
プロジェクト 7
本発表 7
複数 7
取り組み 7

 このようにしてから、もう一度トピック解析を行い、前回と同様にトピックへの近さを基準にしたネットワーク図を作成しました。
 単語を選別した影響で、トピック数を5にするとトピック4と5の内容がかぶるような感じになったので、最終的にトピック数は4にしました。そして、エッジのせいでグラフが見づらくなるのをさけるため、エッジの色に透明色の設定も追加してみやすくしました。
 GraphvizではColorの設定でRGBAが設定できるので、アルファ値も追加してエッジ色を指定しました。

@gv.edges arrowhead: 'none', color: "#00000030"

 これで作成したネットワーク図で、みたところ色のグラデーションもよく分かれていていい感じになったので、これを完成版としました。作成した図は「トーゴーの日シンポジウム2013/ポスター発表」のページで公開されています。