相関解析の続き

 トーゴーの日ポスター間から共通して使用される単語の数を元に相関判定をしますが、基準となる単語を選別して、より意味のある単語が共有されていることを相関の根拠にしようと考えました。
 まず一般的な文章でもよく出現する単語の出力を抑制しようと考え、以前作成した出力抑制用の辞書を読み込み、正規表現マッチする単語は除くようにしました。その後共有単語数と単語出現ポスター数のパラメータをいじって結果を比較しました。
 以下の図は、共有単語数5つ以上、単語出現ポスター数20未満にしたときの結果です。

 エッジ数が減少し、孤立するノードも少し減りました。もう少しグラフを見やすくして正式公開できればと思っています。