Wikipedia取得の続き&MeCabモジュール組換え

 前回Wikipediaのページを取得後にColorKeywordsが正規表現マッチに失敗していたのは、どうやら"("などの正規表現特殊文字が含まれていたかららしく、これを無視するように設定したら問題なくマーカーを引くことができました。
 Wikipediaでは、出典を表す"[1]"のような文字が多数出現するので、これらは最初から取り込まないようにするため、HTTP::TreeBuilderで、

for $del ( $tag->find("h2", "sup") ) {$del->delete;}

としておきました。これで上付き文字は全て解消されました。
 その後、MeCab内部で低頻度かどうかを調べる為のコードを付け加えて、文章ごとに、どこが最低ラインかが動的に変化するようにしました。これにより、ColorKeywordsにおける正規表現に用いられる単語数が異なるようになりました。
 今後はWebページで取得した頻度ファイルを閲覧できるようにしようと思っているので、Webページをデザインする為の方法を調べておこうと思っています。