2011-12-01から1ヶ月間の記事一覧

MySQLへWikipediaのデータベースをダンプ

ローカル上でWikipediaのデータを検索する為に、まずWikipediaのデータベース、pages-articles.xml.bz2を手に入れてきて、g86サーバ上で解凍しました。 次に、「xml2sql」というプログラムを手に入れてきて、g86上でコンパイルし、これを利用して、pages-art…

Wikipediaのカテゴリ

前回に引き続き、生物学の用語をWikipediaから検索する方法を模索していました。いろいろ調べましたが、カテゴリ内をまとめて検索するような機能を利用するのは難しそうです。なので、Googleの検索機能を利用する方法を試してみました。$wikiSearch = 'http:…

Wikipediaの検索機能について

Wikipedia内のページの検索を行う時、カテゴリを「生物学」などに絞って検索できるのかなと思っていましたが、どうやらWikipediaの検索機能にそういうものは無いようです。仕方が無いので、普通に検索して、得られた候補ページをひとつひとつ訪問して、その…

自作でWikipediaの検索利用スクリプトを作る

いろいろ調べましたが、perlのモジュールで、Wikipediaの検索機能を外部から利用するようなものは見つけられなかったので、適当に自作することにしました。 まず、Wikipediaの検索機能ですが、"http://ja.wikipedia.org/w/index.php?search="の後ろに検索し…

WWW::Wikipediaモジュールを試す

Wikipediaの本文を得る為に、検索などを織り交ぜながらマイニングできたらいいなと思い、いろいろ調べるうちに、「WWW::Wikipedia」というモジュールがCPANにあることが判明し、早速使ってみました。my $wiki = WWW::Wikipedia->new(language => 'ja');$resu…

ColorKeywords.pmへの対応&ユーザ辞書更新

前回からColorKeywords.pmが上手く動かない原因を探っていましたが、いろいろ調べたところ、どうやら文字コードが悪さをしていたらしく、Shift-JISなどでは「\Q〜\E」のメタ文字打ち消しの効果が発揮されないことがあるということが分かりました。 生物用語…