Webページ抽出の精度向上&生物用語チェック

 前回作成したHtmlパーサを改善し、不要なstrongタグとdivタグ内部のテキストを破棄し、抽出したテキストが"文 献"だったら、そこで抽出を終了するようにして、必要な論文タイトルと本文のみを回収できるようになりました。
 今回はその後、「in vitroでマウスの精子幹細胞から生殖能のある精子を産生することに成功」(リンク)を自分で読んで、目的となる生物用語がどんな頻度で出てくるのか、とりあえず感覚をつかもうとした。「培養」とか「精原細胞」とかは多く出てくるようなので、今後はその点などに着目して、分類していけるかなと思ってます。