トピック数決定の基準

 LDAによるトピックモデル解析についてさらに調査と考察を行いました。今回のトピック解析の目的は、数千件のポスターをいくつかのクラスタに分け、その中で文章間関連度解析を行おうとしていました。その中で、各トピッククラスタがどれだけの文章数を内包するものになるのか、またトピックでみたときに各単語の出現率を推定することになります。
 とりあえずディリクレ分布のハイパーパラメータは0.1で固定、パラメータ推定の反復回数は1000回で決めうちにして、トピック数を変化させたときに、どのような単語出現確率になるのか、またどのような文章分類確率になるのかを確かめることにしました。
 トピック数を3〜10で変化させ、それぞれのときの各文章の文章分類確率の最大値を回収してみることにしました。各文章は各トピックに対し、そのトピックに分類される確率が計算されます。この確率は全トピックについて足し合わせるともちろん1になり、全トピックに分類される確率が当確率だと、それぞれ(1/トピック数)になります。
 私としては、各文章はある一つのトピックに分類されるようになってほしいので、あるトピックに属する確率だけが90%などと大きくなってほしいと考えています。なので、各文章ごとに、トピックへの分類確率の最大値を回収し、それらがトピック数を変えたときにどのような分布になるのかを調べました。

 今回は粗めに、10%刻みである確率の範囲に入る文章数を数えました。また、100%から考えて、n%〜100%までに分類されるポスター数が、全体の何%になるかを累積度数を調べることで計算しました。
 結果、分類率50%以上に全体の7割以上のポスターが属するのは、トピック数7以下のとき、という基準が見えてきました。今後は他の基準を探しつつ、トピック数7以下のときの単語の様子などを調べていきたいと思っています。