Wikipediaの文章からチャンク頻度解析
新着論文レビューから得られたチャンク頻度解析のなかから、あまり意味の無いチャンクを除くため、一般的な文章でチャンク頻度解析を行って重なる部分を除こうと考えました。
一般的な文章のソースとして、今回もWikipediaを利用することにしました。RubyでWikipediaの上位カテゴリを指定して下位ページを取得するプログラムを作成してみました。日本語を含むURLを参照しようとするとバグが発生したので、Addressableをrubygemからインストールして、
require 'addressable/uri'
uri = Addressable::URI.parse(url) #日本語を含むURIをパース
document = Nokogiri.HTML(open(uri.normalize.to_s, 'User-Agent' => 'ruby'))
とすることで正しくパースすることができました。またWikipediaに高頻度でアクセスすると403エラーが生じるので、ユーザエージェントを指定しました。
Wikipedia辞書を作ったときのPerlプログラムがあるので大枠で完成しましたが、Wikipediaのページをopen-uriで取得すると文字化けするバグが発生してしまいました。
次回このバグを直して、新着論文レビューのチャンク頻度と比べてみたいと思います。