2012-01-01から1ヶ月間の記事一覧

サーバのMeCabアップデートに伴うMeCab-perlの調整

先日公開されたMeCab 0.991へのアップデートにより、単語解析プログラムが上手く結果を出力しなくなっていたので、今回新たにPerlのバインドをインストールしなおし、元通り動くようになりました。 調べた結果、このサーバで初めてプログラムを走らせようと…

Wikipediaタイトル取得&低頻度辞書とのマッチ評価プログラムの作成

前回完成させた「Category:生物学」から生物用語を取得するプログラムを使って、Wikipediaのタイトルを3階層分取得してみました。無事200件以上のページタイトルも全て取得できたようで、Wikipediaを利用した生物用語辞書を作成できました。 その後、前に作…

Wikipediaタイトル取得プログラムの改善

前回問題として残っていた、200件以上のページタイトルを全て取得できていないというバグを、今回WikipediaのHTMLソースを見つつ直しました。 まず、200件よりも多く記事が存在する時、「カテゴリ…にあるページ」の直下に、「次の200件」というリンクが存在…

Wikipediaタイトルの取得と低頻度辞書とのマッチ状況

前回に作成したWikipediaタイトル取得プログラムをもちいて、第3階層まで取得するように設定して走らせました。全て取得するのに約15分ぐらいでした。その後手元の低頻度辞書とのマッチ具合を調べてみるうちに、いくつか問題が…。 まず、「In vitro」と「in …

First Author'sのHTMLパーサ見直し&MeCabパーサのバグ

新たにFirst Author'sに投稿されたページをプログラムに渡した結果を見て、いくつか気になったところがあったので修正しました。 まず、特定の単語の出典や文献を示す、"sup"タグの中の単語について、")"が単独で出てくることがあり、MeCabでは正常に対応付…

タイトル取得の続き&低頻度辞書とのマッチ

前回作成していたWikipediaタイトル取得プログラム「getCategoryBio.pl」について、カテゴリの階層をどれだけたどるかを制限できるようにし、頭のカテゴリからとりあえず2階層だけ探索するようにしました。$limit =2; #呼び出し階層制限 &scanWikiCategory($…

「wiki/Category:生物学」からページタイトルを全取得

生物学的な用語集を作ってデータベース化しようと思い、とりあえずWikipediaのCategory:生物学から辿っていけるすべてのページの表題をテキストファイルにダンプするプログラム、getCategoryBio.plを作成しました。use LWP::UserAgent; use HTML::TreeBuilde…