Webマイニングプログラムの構想

 論文から生物用語と思われる単語を抽出することがだいたいできるようになったので、今度はそれを利用してさらに情報を得たり、論文を読みやすくする為に、新たにプログラムを追加していこうと思っています。
 論文からの単語をWikipediaなどの用語系サイトで調べてみて、そのページの中でリンクになっているような単語をリストアップし、生物用語との関連性を調べて、生物用語の抽出の手助けができたらいいかなーと考えています。
 これにより、生物用語であるか、その判断が曖昧な単語についても、「Webで調べてみる」作業を追加することで、その判断基準を得ることができる可能性があります。また、生物用語の意味を教えてくれるようなページへのリンクが手に入るので、それをユーザに提示して、ユーザが生物用語で詳しく知りたいものがあれば、そのページへ簡単に飛べるようにすることもできるかなと思っています。
 今回はプログラムの構想とアルゴリズムを簡単に考えるだけでしたが、今後もう少しPerlにできることを調べてみて、考えたプログラムの実装を行っていこうと思っています。