さらに修正、名詞出現頻度解析クラスの作成

 前回走らせたアブストラクト取得クラスですが、途中で何度かこけて、原因をみてみると筆者名のアルファベットにアクセント記号などがついてしまっているために、URLが良くないと怒られているようでした。
 特殊なアルファベットを含む筆者名はそんなに多くないので、今回はとりあえずそういう文字を含む人をはじいて検索していくようにしました。正規表現で「[^a-zA-Z ]」を含む場合は検索を行わないようにしました。
 この設定でとりあえず最後までプログラムは走ったのですが、結果を確認してみるとアブストラクトがとれていない人が半分ぐらい存在していました。これは、検索に使った筆者名リストでは該当する結果がPubMedになかったことが原因だったので、最初のクエリでPubMedの該当数が0だった場合に、筆頭著者名だけでもう一度検索してみる、というようにコードを書き換えました。これで現在ワークステーションで実行中なので、結果を見て確認しようと思います。
 
 アブストラクト取得を行っている間、次の英文中の名詞の出現頻度を調べるクラスの実装を始めました。とりあえずはファイル名から、そのファイル中のアブストを使って、単語の出現数を調べられるところまで来ました。次回以降、使用する単語の選択や、クラスタリングにつかう単語の選別などの部分を作っていこうと思います。