推定に使えそうなチャンクを自動判別&不要なチャンクをファイルに書き出し

 今までは属性推定に用いるチャンクは、私が目で見て使えそうだと判断したものをファイルに書き込んでおき、プログラム実行時にそれを読み出して使っていましたが、大体行の属性推定が上手く行くようになってきたので、まだ使用していないチャンクも属性推定に用いることができるように、自動でチャンクを増やしていくようにコーディングしました。
 まず私が登録したチャンクだけで行属性推定を行わせ、属性分けされた行を見て、そこにまだ用いていないチャンクが含まれている場合、それを属性ごとに分類してチャンクをリストに登録していくようにしました。
 また、実際に分類してみると、すべての属性リストに含まれてしまうようなチャンクが存在していることが明らかになったので、3つ以上の属性にまたがって登録されるようなチャンクは、不要と見なして今後使わないようにする為、出力抑制リストに登録し、ファイルに保存しておくようにしました。
 これにより属性推定に利用できそうなチャンクがいくらか見えてくるようになったので、次回以降プログラムをまわしてチャンクが生成されてくるかどうか確かめていこうと思います。新着論文レビューを巡回するようにするプログラムを用意することも考えようかとも考えています。