Webページからのテキスト抽出

 今回は、きちんと新着論文レビューのWebページのソースコードを解析して、論文本文を抽出するPerlスクリプトを作成しました。
 PerlのLWP::SimpleモジュールでURLを指定し、HTML::TreeBuilderでタグごとにツリー化して、divタグの中身を指定して、contentleft内部のpタグ内の文字を回収することに成功。いくつか無駄な文字もあるけど、これはもう、Perl正規表現で取り除くしかないのかなぁ。次回までに考えておきます。
 手に入れた論文本文をファイルに書き出したのち、MeCabで分解。まぁ、問題なく分解されました。
 さて、次回からいよいよ生物用語解析に入りたいと思います。いろんなページからの情報を重ねてみて、自己学習するようなプログラムになればいいなという感じかな。というより私自身の勉強も必要か?w
 Perlスクリプトを動かすインターフェースも作りたいなぁ。またCGIの勉強しようかな。