Wikipediaの本文取得&MeCab適応テスト - tabris2012の不定期日記

　一般的な文章に対して、現在作成中のプログラムがどのような出力をするのか調べるべく、一般文章のソースとして、さまざまな人に書き込まれ、ジャンルも多岐にわたり、後々生物用語を調べるのに使えそうな、Wikipediaを採用することにしました。
　とりあえず文章取得の為に、LWP::UserAgentを用いて、ユーザエージェントを登録しつつ、Wikipediaのソースコードを取得し、bodyContentタグの中身を得ることにしました。
　「首相」についてのページに試した結果が以下のようでした。

　文章全体を取得してマッチを探そうとすると、ColorKeywordsで正規表現エラーが出てしまいました。どうやらきちんと単語分けできていないのが問題なようなので、次回は取得した文章の切断部分を見直そうと思います。