Wikipediaの本文取得&MeCab適応テスト

 一般的な文章に対して、現在作成中のプログラムがどのような出力をするのか調べるべく、一般文章のソースとして、さまざまな人に書き込まれ、ジャンルも多岐にわたり、後々生物用語を調べるのに使えそうな、Wikipediaを採用することにしました。
 とりあえず文章取得の為に、LWP::UserAgentを用いて、ユーザエージェントを登録しつつ、Wikipediaソースコードを取得し、bodyContentタグの中身を得ることにしました。
 「首相」についてのページに試した結果が以下のようでした。

 文章全体を取得してマッチを探そうとすると、ColorKeywordsで正規表現エラーが出てしまいました。どうやらきちんと単語分けできていないのが問題なようなので、次回は取得した文章の切断部分を見直そうと思います。