CGIのバグ…? - tabris2012の不定期日記

　とあるFirstAuthorsの論文、「カイコ発：piRNAがつくられるしくみ」に対し、CGIでHTMLを取得してくる部分で、正しく文字列を取得できない為に、上手く頻度解析ができていないことが判明しました。
　どうやら、HTML::TreeBuilderで、文字のタグからas_textメソッドで文字列を抜き出す際、HTMLの特殊文字である「#8242」が文字バイト列に悪影響を与えているようです。この部分をのぞいたHTMLからは正しく取り出せるので、まず間違いないと思われます。
　エラーメッセージが出力されており、

Wide character in print at ...

となっていたので、調べてみるとutf8フラグのエラーであるらしいことが分かりました。encodeやらいろいろやったのですが、エラーは出なくなっても、肝心の文字化けがとれずに今回は終了してしまいました。
　次回、なんとかこのエラーを取り除こうと思います。