CaboChaでチャンク抽出

 前回CaboChaのRubyバインディングのインストール・使用が上手く行ったので、今回はこれを使ってFirstAuthorsの各文章を、意味の通る最小の単位=チャンクに分割する部分をプログラムしてみました。
 CaboChaインストールフォルダに付属していたクラスリストを参照しながら、チャンクを取り出す方法を考えていました。今回使用したのは以下のメソッドです。

cabocha = CaboCha::Parser.new
tree = cabocha.parse("hogehoge")
chunk = tree.chunk(i)
chunk_surface += tree.token(chunk.token_pos + j).normalized_surface

 使ってみるとtokenはMecabで切断した単語が表示されるようで、CaboCha特有な部分はChunkで取り出して表示することができるようでした。これらを使って、新着論文レビューの各行からチャンクを取り出しHashに追加し、既にHashに登録されていれば値を1増やすようにして、各チャンクが何回表示されたか数えるプログラムを作りました。
 次回は全レビュー間でこのチャンクの出現回数を数え上げる部分をスクリプティングしたいなと考えています。そこから得られた結果を見て、どのようなチャンクがレビューで使われることが多いのか、出現回数と文脈との関連がみれないか確かめるのが目的です。