トピック解析用にデータのパースとトピック解析までをクラス化

 前回の構想を実装するのに、「トピック解析用にデータをパース・マージする」部分と「トピック解析を実行して解析結果をまとめる」という行程が、階層ごとに再帰的に何度も使い回されると思われるので、今回、これらのメソッドをまとめたクラスを作成しました。

 このクラスがあれば、将来的にもこれを公開すれば、対応するデータを食わせれば手頃なトピック分類された結果が得られるプログラムとして使用していただけると思われるので、なるべく汎用性を持たせて実装していきます。
 まとめクラスとして、「AuthorTopicExplorer」を作成し、クラス変数として「トピック解析プログラムが出力するファイルを保存するフォルダ」、「探索トピック数の上限・下限」、「トピック解析プログラムへのパス」を持たせています。
 また、提供するメソッドは、「筆者ごとにまとめられた単語リストファイルを、全部読込んでマージしてトピック解析プログラムに渡せる形式にする」、「下限・上限トピック数でトピック解析プログラムを起動する」、「得られた各トピックごとの分類確率から、有効と判断できるトピック数を返却する」ものを考えています。

 現在3つ目のメソッドまで実装できたので、次回は残りの実装と、再帰的にトピック解析を続けるスクリプトや、Gvizを利用したグラフ出力スクリプトまで完成させていこうと思います。