トピック解析の実行まで

 前回取得した筆者ごとの単語リストから、トピック解析を行って良さそうなトピック数を調べるスクリプト「AuthorTopicExplorer.rb」を書きました。私のGitHubの方に追加しております。

 このスクリプトでは、まず「著者ごとの単語リスト」を読込んで、LDAトピック解析に使うtsv形式ファイルを作成します。tsvファイルは「筆者名\t単語\t単語…」を、筆者ごとに各行に書き込んだ形式のものになります。
 次にtsvファイルをLDAトピック解析プログラムに渡します。このとき、トピック数を指定して実行するので、指定したトピック数ごとのフォルダに保存させるようにしました。最後に、各トピック数のフォルダを見比べて、どのトピック数が良さそうかを判定します。
 判定方法はまだ決めていませんが、現在は暫定的に、「分類確率50%以上の筆者が、全体の7割」存在する、最大のトピック数、としています。

 今回、このスクリプトを書いていてはまったのが、tsvファイルを書き込んだ後コピーして各フォルダに割り振るところです。書き込む関数でopenしたtsvファイルへのIOを、最後にcloseしていなかったせいで、コピーしたときに中途半端なファイルが生成してしまいました。最初はFileUtils.cpのバグかと思いましたが、そんなことはなかったですね…

 さて、気を取り直して、次回は解析結果からグラフを出力するところを実装していこうと思っております。