単語出現頻度解析

 一行に一単語のテキストファイルを用いて、一行ずつ読み込み、その単語が%freqハッシュのキーとして登録されているかを調べて、登録されていれば値を1増やし、登録されていなければ新たにハッシュに登録するPerlスクリプトを作成しました。テキストファイルを全て読み終わったら、値の数値の大きさで降順にソートして、外部ファイルに書き出すようにし、ファイルを開くと、単語と出現回数がタブをはさんで一行ずつ表示されるようになっています。
 今回作成したプログラムは、ハッシュのキーを調べるときに、「eq」で完全一致のみしか調べていません。本当は正規表現でマッチを調べたかったんですが、MeCabで切った単語に括弧などのメタキャラクタが残ってしまっていて、それが正規表現を調べるときに引っかかっているようです。Perlのほうでメタキャラクタを無視するか、MeCabでの単語抜き出しの精度をもっと高めなければなりませんね。

 一応最初に私が考えていたことはもうすぐ出来そうなので、そろそろMeCab辞書に手を加えたり、多くの文献を読み込んで辞書をつくったりすることを考えてみますかな。まだまだやることは多そうです。