2012-07-01から1ヶ月間の記事一覧

クラスタマシンにMeCab, CaboChaインストール

前回までに作成した、チャンク頻度計算プログラムを走らせるため、統合牧場のクラスタマシンに必要なライブラリをインストールする作業を行いました。使用するのはMeCabとCaboCha、それにCaboChaをRubyから呼び出すためのバンドルで、これらを全て管理者権限…

チャンク頻度を全レビューについて加算

一つのレビュー内でチャンク頻度を計算するクラスは完成したので、今回は続いて新着論文レビューのページで公開されている全レビューについて、チャンク頻度を足し合わせるという部分をプログラムしました。 まずは新着論文レビューのホームページの右に表示…

CaboChaでチャンク抽出

前回CaboChaのRubyバインディングのインストール・使用が上手く行ったので、今回はこれを使ってFirstAuthorsの各文章を、意味の通る最小の単位=チャンクに分割する部分をプログラムしてみました。 CaboChaインストールフォルダに付属していたクラスリストを…

RubyでCaboCha

今まで各行の属性示唆に使っていた辞書の単語は私が恣意的に選んでいたものだったので、これを計算的に求めようと考え、今回はMeCabではなくCaboChaを使って、レビューの各行の言語解析を行っていこうと思っています。 まずはRubyでCaboChaを使えるようにす…

Rubyで作ったCGI公開

前回完成させたレビュー文章内容分類のRubyスクリプトをブラウザから呼び出せるようにするため、CGIにしてパラメータを読込んで動くように改善して、g86のサーバにアップロードしました。 RubyでCGIとして起動したときに渡されるパラメータを解析する部分は…

RubyでHTML色付けスクリプト完成

前回に引き続き、HTMLの特定の行にハイライトを追加する部分をコーディングしました。 NokogiriでHTMLをパースしたら、以前に行の中身だけ取り出したときと同じように、不要な部分をremoveして、必要な部分を今回はHTMLタグを残すように、innner_htmlメソッ…

Rubyスクリプトのバグつぶし

前回の続きのハイライト追加部分を書き上げましたが、まだ正しく実行されませんでした。まず文章の属性推定部分でいくつかバグが見つかりました。 Rubyのfor文で配列の中身を順番に参照しながら進むというように書いた場合、for文を抜けたときにfor文で使っ…

ハイライト追加部分をRuby移植中

前回に引き続きRuby移植を行いました。まずPerlで用意していた、行の属性を決めるのに手がかりとなった単語を強調表示するメソッドですが、Rubyへの移植の際に、外部関数として実装すると辞書を読込むコストがもったいないので、前回作ったクラスのメンバ関…

ChromHMM部分までRuby移植完了

前回はHTMLのパースの部分で詰まってしまいましたが、Nokogiriを何とかインストールすることに成功し、libxml2なども最新版をインストールして正しく使うことができるようになりました。特定のタグを出現順番に取り出すには、(content.xpath("h1|p|h2")).eac…