レビュー内でチャンクの出現位置と頻度値を確認

 前回論文レビューを読んでみて知識だと思われる文章をチェックする作業を行ったので、今回は実際にその各行にどのようなチャンクが含まれているのかを調査してみました。
 調査にあたっては、いちいち行内のチャンクをチャンクリストで検索するのは面倒なので、論文レビューのHTMLのなかで、チャンクにマッチする部分に下線を引き、ついでにそのチャンクの出現頻度を同時に確認できるように上付き文字で表示することにし、そのためのスクリプトを作成しました。

sortedChunk.each do |chunk, value|
chunkHTML.gsub!(chunk, "<u>{chunk}<sup>#{value}</sup></u>")
end

というRubyスクリプトを用意することで、下線と上付き文字を追加したHTMLで元のHTMLファイルを置換することに成功しました。以下の画像のような感じです。

 その後これを見ながら、新規知識と思われる行に出現するチャンクをまとめてみました。いずれは行を入力して自動でチャンクをまとめるプログラムも作成したいですね。次回以降もチャンクリストをまとめつつ、行の属性判別プログラムへの応用を考えてみたいと思います。ちなみにチャンクリストは以下のようになりました。

筆者らは、 741
見い出した 250
依存的な 165
はたらく 158
制御する 433
複合体の 140
さまざまな 540
観察した 127
のち 278
つまり、 183
同様に 233
細胞の 504
さらに 291
さらに、 1005
新たな 211
明らかになった 904