単語リスト作成クラスのリファクタリング

 牧場のマシンで全文章を使用した単語の頻度リストを作成させ、約4時間の計算の後に単語リストが得られました。しかしながら結果を見てみると、確かに「細胞」とか「遺伝子」といった単語の出現頻度は高くなりましたが、「al」とか「ゼ」とか「SUB」といったもはや意味をなしていない単語の頻度も高く出力されてしまいました。文章ごとに記述の仕方がばらばらで、MeCabによる切断結果があまり良くないものも計算中に紛れ込んでしまうためだと考えられます。
 そこで、文章すべてから単語をまとめて回収するのではなく、文章ごとに先に単語を集め、出現頻度が2以上の単語のみをまとめたハッシュテーブルを途中で作成してから、全体の単語出現頻度を計算することにしました。各文章でそれぞれ重要なキーワードは何度も使われることを仮定し、その単語だけを用いて関連解析を行ってみることにします。
 この方針でプログラムを動かせるようにするため、MeCabを使用した単語リスト作成クラスを見直しました。まず文章をMeCabに渡して単語リストを作成する部分と、頻度値を補正する部分をそれぞれ「addWordFromMecab」と「correctFreq」としてクラスメソッドとして独立させ、文章ごとに単語を先に集めるという方針を選択できるように、その動作を担当するメソッドを以前のメソッドとは独立に用意しました。
 こうすることで文章ごとに頻度値を補正するときと、全部の単語を一つのハッシュテーブルにまとめた後で補正するときで、同じメソッドを使うことができるようになりました。
 再びこのプログラムを牧場のマシンで動かし始めたので、次回結果を確認したいと思います。