2012-11-01から1ヶ月間の記事一覧
今回ポスター内容が更新されたとのことなので、csvファイルをいただいてパースするところからやり直しました。 まず今まで自分でファイルから一行ずつ読込んでsplice(',')を使って調べていましたが、これをすると英文中のコンマでも区切れてしまうので、Ruby…
昨日の修正によって単語頻度が変わってしまったので、アルファベットを含む単語については出現頻度に重み付けを行うことにしました。これにより単語の長さ×4の初期スコアがその単語には与えられます。この状態でもう一度単語頻度を計算させていますが、数が…
今まで英単語が完全マッチであるかどうかはチェックせず、たとえばRNAにNAがヒットしてしまったりしていて、関係のない単語・ポスターが集計されてしまっていたので、今回はそれをまず直しました。 正規表現で英数字以外の文字は"\W"のメタ記号が使えるので…
全てのポスターの関連の様子を一度に表示するのも良いですが、特定のポスターをその中から検索したり、そのポスターに関連するもののみ見れるようにしたいと考えました。今回はその為の検索プログラムと、クエリを投げるためのHTMLによるインターフェースを…
いろいろ調べてみましたがGraphvizを用いたグラフ作成が便利そうなので使ってみることにしました。また、Rubyで対応するフォーマットに出力してくれるライブラリとして、コメントでご紹介いただいたGvizを使ってみることにしました。 いままでファイルに相関…
エッジの数やノードの数からみて、ただ相関の様子を図示しただけでは全体がぐちゃっと表示されるだけなので、部分的に拡大して相関関係をみることができるような図を作りたいと思いました。 これについて、エッジの距離やクラスタを図示してくれるプログラム…
ファイルに出力する際に文字化けしていたのは、Stringを含むRubyの配列をフォーマット等何も書かずにそのまま出力させていたかららしく、配列の中身に順番にアクセスしながら出力形式を指定して書き込んだら問題なくUTF-8で読めるように出力されました。 さ…