Wikipediaタイトルの取得と低頻度辞書とのマッチ状況

 前回に作成したWikipediaタイトル取得プログラムをもちいて、第3階層まで取得するように設定して走らせました。全て取得するのに約15分ぐらいでした。その後手元の低頻度辞書とのマッチ具合を調べてみるうちに、いくつか問題が…。
 まず、「In vitro」と「in vitro」といった英語の文字の表記揺れが発見されました。これは正規表現のオプションを弄って解決できました。

  /\Q$list/i

とiオプションで大文字と小文字の区別をしないようにしました。
 またマッチ状況を調べていたときに気づいたのですが、WikipediaのCategory内に含まれるページ数が200件を超えていると、デフォルトでは表示されていないことが分かりました。例えば「タンパク質」の項目について、本来は「フォールディング」のページが存在しているのに、「次の200件」の方に入っている為に取得できていないことが判明しました。
 次回、この問題を解決すべくプログラムを書き直そうと思います。