Webページからのテキスト抽出 - tabris2012の不定期日記

　今回は、きちんと新着論文レビューのWebページのソースコードを解析して、論文本文を抽出するPerl スクリプトを作成しました。
　PerlのLWP::SimpleモジュールでURLを指定し、HTML::TreeBuilderでタグごとにツリー化して、divタグの中身を指定して、contentleft内部のpタグ内の文字を回収することに成功。いくつか無駄な文字もあるけど、これはもう、Perlの正規表現で取り除くしかないのかなぁ。次回までに考えておきます。
　手に入れた論文本文をファイルに書き出したのち、MeCabで分解。まぁ、問題なく分解されました。
　さて、次回からいよいよ生物用語解析に入りたいと思います。いろんなページからの情報を重ねてみて、自己学習するようなプログラムになればいいなという感じかな。というより私自身の勉強も必要か？ｗ
　Perl スクリプトを動かすインターフェースも作りたいなぁ。またCGIの勉強しようかな。