2012-11-01から1ヶ月間の記事一覧

新しいポスター情報から単語解析&相関図出力の並列化

今回ポスター内容が更新されたとのことなので、csvファイルをいただいてパースするところからやり直しました。 まず今まで自分でファイルから一行ずつ読込んでsplice(',')を使って調べていましたが、これをすると英文中のコンマでも区切れてしまうので、Ruby…

全種類のポスター作成

昨日の修正によって単語頻度が変わってしまったので、アルファベットを含む単語については出現頻度に重み付けを行うことにしました。これにより単語の長さ×4の初期スコアがその単語には与えられます。この状態でもう一度単語頻度を計算させていますが、数が…

単語頻度の取り直し&ポスター相関計算し直し

今まで英単語が完全マッチであるかどうかはチェックせず、たとえばRNAにNAがヒットしてしまったりしていて、関係のない単語・ポスターが集計されてしまっていたので、今回はそれをまず直しました。 正規表現で英数字以外の文字は"\W"のメタ記号が使えるので…

ポスター発表者を中心に相関図を作成

全てのポスターの関連の様子を一度に表示するのも良いですが、特定のポスターをその中から検索したり、そのポスターに関連するもののみ見れるようにしたいと考えました。今回はその為の検索プログラムと、クエリを投げるためのHTMLによるインターフェースを…

Graphvizを用いたポスター間相関図の作成

いろいろ調べてみましたがGraphvizを用いたグラフ作成が便利そうなので使ってみることにしました。また、Rubyで対応するフォーマットに出力してくれるライブラリとして、コメントでご紹介いただいたGvizを使ってみることにしました。 いままでファイルに相関…

グラフ作成ソフト再考

エッジの数やノードの数からみて、ただ相関の様子を図示しただけでは全体がぐちゃっと表示されるだけなので、部分的に拡大して相関関係をみることができるような図を作りたいと思いました。 これについて、エッジの距離やクラスタを図示してくれるプログラム…

単語を使った文章間相関計算&ネットワーク図表示

ファイルに出力する際に文字化けしていたのは、Stringを含むRubyの配列をフォーマット等何も書かずにそのまま出力させていたかららしく、配列の中身に順番にアクセスしながら出力形式を指定して書き込んだら問題なくUTF-8で読めるように出力されました。 さ…