ChromHMM部分までRuby移植完了 - tabris2012の不定期日記

　前回はHTMLのパースの部分で詰まってしまいましたが、Nokogiriを何とかインストールすることに成功し、libxml2なども最新版をインストールして正しく使うことができるようになりました。特定のタグを出現順番に取り出すには、

(content.xpath("h1|p|h2")).each do |tag|
…

とすることで回収することができました。
　今回はその後、Perlでは一度実装したChromHMMで行間の遷移を調べるプログラムの部分を、Rubyで実装することにしました。この部分をクラスとして、動作に必要なコードをまとめてみました。Rubyだと多次元配列の参照や、クラスへのArrayオブジェクトの受け渡しを簡単に記述できていいですね〜。Perlの時は読みづらかったこれらの部分がすっきりかけました。
　作成後に実行して動作を確認してみましたが、動作速度的には遜色無く結果が出力され、遷移確率や出現確率などの値も正しく表示されたので良かったです。

　次回はHTMLに色をつける部分をRubyに移植したり、現在の方法とは異なる行内容推定の方法を探したりしたいと思います。