チャンク頻度考察と、高頻度チャンクの出現位置を調べるプログラム

 前回作成した全レビューについてのチャンク出現頻度を使って、まずは累積頻度解析を行ってみました。Libreoffice Calcを用いて散布図を作成した見たところ、100回よりも出現回数が少ないチャンクが全体の約99.9%を占めていることが分かり、とりあえず100回以上出現しているチャンクを利用してみることにしました。
 また出現回数が1500よりも多いチャンク(「ことが」「この」「その」など)については、使われすぎてあまり意味を持たないと思われたので、最終的に出現回数が100回から1000回の範囲のチャンクを残して、これを高頻度チャンクとすることにしました。
 次にこの高頻度チャンクを用いて、各新着論文レビューの文章について高頻度チャンクが出現する行を抽出・ハイライトするプログラムをRubyで作成しました。以下の図はレビュー「種間関係の多様性が生態系をささえる」について、高頻度チャンクを含む文章をハイライト表示したものです。

ご覧のとおり、ほとんどの行がマッチしてしまって情報が抽出できたとは言いづらい結果になってしまいました。チャンクの選び方に問題があると思われますので、次回高頻度チャンクをどうやって選ぶか考察していきたいと思います。
 あるいはチャンクごとにどのような行が拾われるのかリストを作って、それをレビュー間で比べていくという方向も考えてみたいです。