頻度解析ファイル同士の結合

 今までに分割して頻度計算を行ってきた10ファイルを利用して、これらの頻度を足し合わせるPerlスクリプトを作ってみました。コード自体は簡単で、結合データを保存したファイルを開いて、内部のハッシュにデータを取り込み(split関数)、その後結合したい頻度ファイルを開いて足し合わせていくだけです。
 結果を見てみると、まぁ予想通りというか、「細胞」「タンパク質」「遺伝子」が圧倒的に上位でしたwって、そんなことよりも、きちんと生物用語とその他の言葉が区別できているかが大事ですが、こちらも予想通り、個別に計算した場合とあまり変わっていませんでした。頻度が小さいってことは、ほかの論文をみても出てこないってことですね。ちょっと残念。
 でもそのかわり、複数の論文でどのような言葉の使われ方がされているか、その方向性が見えてきました。とりあえず、英字を含むような単語はまちがいなく重要語で(日本語に訳せないか、あまりなじみがないから英語ものせているんだと思う)、「〜どうし」「いちど〜」といった言い回しは多く用いられていることがわかりました。
 今後はこの結合解析も行いつつ、個別の頻度計算の精度を高めていこうと思いました。先駆けとして、英字を含む単語は、その長さの2倍を重さに与えるようにしました。