Wikipedia辞書作成プログラムの変更

 16日に行われました第3回統合牧場収穫祭では、おかげさまで無事1年間の成果を報告することができました。ご覧になって下さった方々、また統合牧場関係者の皆様、本当にありがとうございました。貴重なご意見も数多く頂き、それらを達成できるように、今日からまたいろいろ実装していこうと思います。

 さて今回は、前に作成したWikipediaのCategory:生物学の配下ページを取得するプログラムを少し書き換えました。というのも、今までの動作ではただ単純に配下ページを順番に深さ優先で取得するだけのコードだったので、同じページを取得した場合、その項目がダブって登録されてしまう問題があった為で、今回暫定的に、そのページタイトルの「文字列の長さ」を利用したハッシュテーブルを用意し、その中に生物用語を追加していって、ダブりが無いか毎回確認するように、コードを書き換えました。
 少し動作が遅くなってしまうかもしれませんが、Wikipedia辞書として見やすい物を作りたいし、後に低頻度辞書とマッチさせるときの計算コストを小さくしたいと思ってこのように変更しました。またサーバにインストールしておいたので、実際の作成にかかる時間を確かめてみたいです。