新規チャンク取得の続き - tabris2012の不定期日記

　前回、全論文レビューを対象にした新規チャンクの取得プログラムで、正規表現エラーなどの問題が残っていたので、今回はその修正から始めました。
　この正規表現エラーについては、あるチャンクにエスケープが必要な記号が含まれることが原因だったので、Rubyの組み込み関数を利用してエスケープするようにしました。

if line[0] =~ /#{Regexp.escape(chunk)}/ && !@chunkTemp[i].include?(chunk)

とすることでチャンクごとに必要な記号についてエスケープするようにしました。
　このようにしたプログラムを走らせたところ、動作にエラーは生じませんでしたが、新規チャンク候補を与えるファイルが大きすぎた為になかなか処理が進まないという状況になりました。なので候補ファイルはレビュー間出現頻度が100以上のもののみを残すことにしました。
　これで全レビュー間で候補チャンクを属性に割り振らせてみました。しかしプログラム内で、3つ以上の属性に出現するチャンクを削除するようにしていたら、ほとんどのチャンクが削除されてしまいました。どうやらまだ文章の属性推定が甘い為にチャンクが様々な属性に振り分けられることが多いようです。
　プログラムに与えるレビューを70個ぐらいに絞ってみたところ、有用そうなチャンクが少しだけ残るような結果が得られたので、今後はプログラムに与えるレビュー数を制限しながら新規チャンクを回収し、それを利用して文章の属性推定の精度を上げていくようにしたいと思います。