CGIのバグ…?
とあるFirstAuthorsの論文、「カイコ発:piRNAがつくられるしくみ」に対し、CGIでHTMLを取得してくる部分で、正しく文字列を取得できない為に、上手く頻度解析ができていないことが判明しました。
どうやら、HTML::TreeBuilderで、文字のタグからas_textメソッドで文字列を抜き出す際、HTMLの特殊文字である「#8242」が文字バイト列に悪影響を与えているようです。この部分をのぞいたHTMLからは正しく取り出せるので、まず間違いないと思われます。
エラーメッセージが出力されており、
Wide character in print at ...
となっていたので、調べてみるとutf8フラグのエラーであるらしいことが分かりました。encodeやらいろいろやったのですが、エラーは出なくなっても、肝心の文字化けがとれずに今回は終了してしまいました。
次回、なんとかこのエラーを取り除こうと思います。