チャンクリストの調整&トーゴーの日ポスター解析

 行の属性推定プログラムはほぼ完成し、後はチャンクリストに登録してある行推定用のチャンクを選別するだけになりました。まずいくつかのレビューをプログラムに渡して結果を見てみて、結論の行だと思われるのに前提行として判別されているような場合について、判別に使われたと思われるチャンクをリストから探して削除したり移動したりしてみました。これでだいぶ信用できるような属性推定ができるようになったので、あとは自動で新規チャンクを探すプログラムに任せることにしました。
 サーバ上で動かしていたところ、レビューを取得する段階で文字化けが発生して、正しく行推定ができていない行が存在していることが分かりました。これはCGIを走らせるときに、ファイルの先頭でRubyプログラムを指定するところで日本語エンコードを指定していなかったことが原因でした。

#!/usr/bin/ruby -Ku

と変更することで文字化けが発生しなくなりました。これでサーバ上でプログラムを走らせるたびに新規チャンクを自動更新してくれるはずです。今後様子を見ていこうと思います。

 さて、来たる10/5にトーゴーの日シンポジウムが開かれます。そこで、ここで発表されるポスターの要旨を利用してポスターの相関解析ができないかという司令をいただきました。今回はとりあえずポスター番号・タイトル・要旨を抽出するRubyスクリプトまで書きましたが、次回以降、具体的にどう分類わけするかを考えていきたいと思います。まずは生物学用語を取り出してみて、その傾向で分けられないかを考えてみます。