単語頻度の取り直し&ポスター相関計算し直し

 今まで英単語が完全マッチであるかどうかはチェックせず、たとえばRNAにNAがヒットしてしまったりしていて、関係のない単語・ポスターが集計されてしまっていたので、今回はそれをまず直しました。
 正規表現で英数字以外の文字は"\W"のメタ記号が使えるので、

/\W#{word}\W|^#{word}\W|\W#{word}$/

とすることで誤ったマッチを計算することを防ぐようにしました。
 このように直した後、約1時間半ぐらいかけて牧場のマシンで単語頻度の取り直しを行いました。確認したところRNAとNAは分離して計算されているようです。
 今後はこの状態でポスター相関を再計算し、様子を見てから図表の作成に入ろうと思います。全部のポスターについていくつかパラメータを変更した図を作成し、それを検索ですぐに閲覧できるようにしようと思っています。