Wikipediaのチャンク頻度と新着論文レビューのチャンク頻度の比較

 前回Wikipediaから一般文章のチャンク頻度リストを作成したので、今回はそれと新着論文レビューのチャンクリストを比較し、同じチャンクは無意味と考えて除いていくプログラムを作成しました。
 「この」とか「その」といったチャンクは、そのソースによらずよく出現する単語なので、これらを使って文章を分類することはできません。よって新着論文レビューのチャンクリストから一つ一つ抽出し、Wikipediaのチャンクリストに同じものがあるか検索して、存在する場合はそのチャンクをリストから破棄するように、Rubyスクリプティングしました。

chunkFA.each do |chunk, value|
if chunkWiki.index(chunk.gsub(",", "、"))
next #Wikipedia頻度リストに含まれる場合は何もしない
elsif chunk.length <2
next
end

chunkDiff[chunk] = value
end

 両者のチャンクリストの間で、読点の使い方に違いがあったので(「,」と「、」)、検索にかける前に置換をかけています。またチャンクの長さが1のものは無意味と考え、除くことにしました。
 これにより新着論文レビューに特有なチャンクリストを得ることができました。以下に一部を表示します。

もつ 1239
さらに, 1005
結果, 1005
ところ, 914
明らかになった 904
筆者らは, 741
わかった 691
考えられた 680
そこで, 651
由来する 622
役割を 595
示唆された 584
ことにより 509
細胞の 504

 これを利用して、実際に論文レビューのどの部分にチャンクが出現するのか確認するプログラムを実行して、得られた結果を見ながら、チャンクから行の属性が推定できそうか確認する作業を行っています。ここで気になったのが、あまり出現頻度の高くないチャンクでも、それしか行の属性推定の根拠になりそうなものが無い場合があって、最低頻度値をどこに設定するかを考察する必要がありそうだということです。これらについて、次回以降推定できそうなチャンクを選ぶ作業とともに考えていこうと思っています。