単語リストの取得&相関解析開始

 ポスターから単語リストを取得するプログラムですが、今回まず生テキストから山括弧でくくられたタグを消去することにし、その後MeCabに渡すことにしました。String.gsub!を使って正規表現マッチしたものを空白に変更しました。
 MeCabに渡した後に返ってきた単語で、一文字だけのひらがな・カタカナ・アルファベットを消去することにしました。一文字の漢字は残るようにし、このプログラムを牧場マシンで再び動かしてみました。
 約30分ほどで終了し、今回は使えそうな単語が集まったリストを回収できました。今後はとりあえずこのリストで相関解析を行い、内容が良くないようならリストに追加してある単語から見直そうと思っています。アルファベット2文字の単語等あまり意味のなさそうなものも残っている為です。
 得られたリストとポスタータイトルを用いて、ある単語を含む全ポスターをリストにするプログラムを走らせました。これは前回のポスター解析のときに作ったものの一部を利用しているものです。リファクタリングも兼ねて動作の様子を確認しようと思います。
 出現頻度が100以上の単語について出てくるポスターを調べてみました。しかし発表者名が文字化けしてしまったので、次回までにファイルへの書き込み部分を確認しておきます。