Wikipediaタイトル取得&低頻度辞書とのマッチ評価プログラムの作成

 前回完成させた「Category:生物学」から生物用語を取得するプログラムを使って、Wikipediaのタイトルを3階層分取得してみました。無事200件以上のページタイトルも全て取得できたようで、Wikipediaを利用した生物用語辞書を作成できました。
 その後、前に作りかけにしてあった、低頻度辞書とWikipedia辞書とのマッチを調べるプログラムの作成の続きを行いました。まず作成前に構想を練り直し、単語解析プログラムがログとして残している低頻度辞書をそのまま書き換えるのではなく、そのログを別のファイルに書き出すようにして、そのファイルから低頻度辞書に書き込むかどうか判定するプログラムとすることにしました。

低頻度辞書→単語解析プログラム
       ↓
      辞書登録候補ファイル
       ↓ Wikipedia辞書とのマッチ確認
      低頻度辞書への登録 OR そのまま候補ファイルに残す
                   ↓ 人の目でみて確認
                 低頻度辞書への登録 OR 出力抑制辞書への登録

という流れです。
 というわけで、このマッチ確認プログラム「dicMatcher.pl」では、まず候補ファイルとWikipedia辞書をロードし、マッチする単語は低頻度辞書へ登録し、マッチしない単語はそのまま残すという機能を持たせました。
 低頻度辞書への登録の際、もともと低頻度辞書に登録されている単語は追加する必要がないので、その判定の為に低頻度辞書をロードしマッチを正規表現で確認しています。

 いよいよ私の仕事も大詰めです。最後にこのマッチ確認プログラムをサーバ上で一定期間で自動的に走るように仕掛けておき、低頻度辞書を自動で更新する部分を実装したいと思います。
 これが終わったら、今までの仕事により得られるようになった論文内の生物用語を、重みを基準にキーワードとして抜き出すプログラムを作成し、gackelNLさんの論文分類で利用できるようにするところを実装できたらなと思っています。