チャンク頻度を全レビューについて加算

 一つのレビュー内でチャンク頻度を計算するクラスは完成したので、今回は続いて新着論文レビューのページで公開されている全レビューについて、チャンク頻度を足し合わせるという部分をプログラムしました。
 まずは新着論文レビューのホームページの右に表示されている「アーカイブ」から、全レビューへのリンクを取得する部分をNokogiriを利用して構成しました。

content = document.search("li#archives-5") #右アーカイブ取得

content.search('a').each do |link| #リンク取得
archives.push(link.get_attribute('href'))
end

としてアーカイブへのアクセスリンクを全て取得できました。あとはリンク先でレビュー本文へのリンクを取得するだけでした。
 次にレビュー本文へのリンクを順番にみながら、前回作成したチャンク頻度計算クラスを呼び出していき、計算クラスは呼び出されるたびに内部に持っているハッシュを再利用するようにすることで、ハッシュの値が加算されていくようにしました。今回は全てのレビューを計算させるだけのマシンパワーが用意できなかったので、最近32本について計算させてみました。以下がその結果の一部です。

ことが 428
この 326
その 304
もつ 176
ことを 141
これらの 127
ため, 109
ことから, 105
1の 100
ところ, 99
また, 97
さらに, 90
明らかになった 87
結果, 83
わかった 78
ある 72
なる 70
考えられた 67

 いくつか特徴的な語彙が発見されたので、次回はクラスターマシンで動かして全レビューを取得してみて、特徴後を利用したレビューオントロジーの作成を考えていきたいと思っています。