2012-01-01から1ヶ月間の記事一覧
先日公開されたMeCab 0.991へのアップデートにより、単語解析プログラムが上手く結果を出力しなくなっていたので、今回新たにPerlのバインドをインストールしなおし、元通り動くようになりました。 調べた結果、このサーバで初めてプログラムを走らせようと…
前回完成させた「Category:生物学」から生物用語を取得するプログラムを使って、Wikipediaのタイトルを3階層分取得してみました。無事200件以上のページタイトルも全て取得できたようで、Wikipediaを利用した生物用語辞書を作成できました。 その後、前に作…
前回問題として残っていた、200件以上のページタイトルを全て取得できていないというバグを、今回WikipediaのHTMLソースを見つつ直しました。 まず、200件よりも多く記事が存在する時、「カテゴリ…にあるページ」の直下に、「次の200件」というリンクが存在…
前回に作成したWikipediaタイトル取得プログラムをもちいて、第3階層まで取得するように設定して走らせました。全て取得するのに約15分ぐらいでした。その後手元の低頻度辞書とのマッチ具合を調べてみるうちに、いくつか問題が…。 まず、「In vitro」と「in …
新たにFirst Author'sに投稿されたページをプログラムに渡した結果を見て、いくつか気になったところがあったので修正しました。 まず、特定の単語の出典や文献を示す、"sup"タグの中の単語について、")"が単独で出てくることがあり、MeCabでは正常に対応付…
前回作成していたWikipediaタイトル取得プログラム「getCategoryBio.pl」について、カテゴリの階層をどれだけたどるかを制限できるようにし、頭のカテゴリからとりあえず2階層だけ探索するようにしました。$limit =2; #呼び出し階層制限 &scanWikiCategory($…
生物学的な用語集を作ってデータベース化しようと思い、とりあえずWikipediaのCategory:生物学から辿っていけるすべてのページの表題をテキストファイルにダンプするプログラム、getCategoryBio.plを作成しました。use LWP::UserAgent; use HTML::TreeBuilde…