頻度解析モジュールの調整&BiologicalWordWeb.plの作成開始

 前回から1週間ほど開いてしまって、新しくFirstAuthor'sのページに追加された論文が増えてきたので、今回もまたこれらを元にプログラムの性能実験を行って、誤ったポイントを修復しました。
 まず、「相同染色体」が「同染色体」と切断されてしまうなどのMeCabの問題があったので、ユーザ辞書にこれらを登録して正しく切断するように調整しました。いよいよユーザ辞書も30語を超えて来たので、そろそろ上手く利用する為に、「生物用語」といったエントリーを付けていくようにしようかと思っています。
 また、低頻度辞書に登録されてしまう不要語も調整しました。いろいろ悩みましたが、「培養」「特異」「クラスター」などの単語も不要後とすることにしました。
 その後、今回からWebマイニング用のプログラム、「BiologicalWordWeb.pl」の作成も始めました。手始めに、低頻度辞書の単語を、「http://ja.wikipedia.org/wiki/」の後ろに接続したURLを作成し、正しくページにアクセスできるか確かめる為、アクセス先の文章をファイルに出力するようにプログラムしました。
 Wikipediaにアクセスするのに、ユーザエージェントを別に設定したりすることが必要なので、以下のようにしました。


my $userAgent = LWP::UserAgent->new;
$userAgent->agent('Mozilla'); #ユーザエージェント設定
my $tree = HTML::TreeBuilder->new;
my $wikiTemp = 'http://ja.wikipedia.org/wiki/'; #テンプレート

open LD, ";
chomp $line;
$URL = $wikiTemp . $line; #Wikipedia検索用URL生成
$response = $userAgent->get($URL); #レスポンス試行

 こんな感じで試しのプログラムを作成し、無事getすることができました。次回はもっといろいろな単語を調べてみて、getの様子を探ってみたいと思っています。