2012-10-01から1ヶ月間の記事一覧

単語リストの取得&相関解析開始

ポスターから単語リストを取得するプログラムですが、今回まず生テキストから山括弧でくくられたタグを消去することにし、その後MeCabに渡すことにしました。String.gsub!を使って正規表現マッチしたものを空白に変更しました。 MeCabに渡した後に返ってきた…

登録単語の削除

昨日設定した状態で牧場マシンで40分程度で単語リストの取得ができましたが、みてみると相変わらず「ミ」とか「ゼ」といった単語が登録されていました。なので、1文字しか無い単語について、他の単語と正規表現マッチするようならばそのエントリーを削除する…

単語リスト作成クラスのリファクタリング

牧場のマシンで全文章を使用した単語の頻度リストを作成させ、約4時間の計算の後に単語リストが得られました。しかしながら結果を見てみると、確かに「細胞」とか「遺伝子」といった単語の出現頻度は高くなりましたが、「al」とか「ゼ」とか「SUB」といった…

単語リストの作成プログラムを仮想端末で実行

単語リストに登録された各単語について、ある単語を内部に含む単語が無いか調べて頻度値を上げる部分が、リストの大きさのせいで時間がかかるので、先に文字列の長さが短い順に並べ替えておいてから、リストの単語を自身より後ろに登録しているものとだけ正…

単語の精製とデータベース作成

いくつかの文章を試しにプログラムに与えて単語リストを得てみたところ、斜体にしたり上付き文字にする為のタグがそのまま残ってしまっていることが分かったので、正規表現の判定文に山括弧を追加しておいて、中身のみ得られるようにしました。 また膨大なフ…

文章データ抽出と単語頻度解析

今回処理を行う生データは大量のタブ区切りの表なので、まずはここから今回関連解析を行う日本語文章を取り出すパーサを作成しました。 HTMLから取り出す訳ではないので、ファイルを一行ずつ読込み、タブをトークンにしてsplitを行い、特定の座標のものだけ…

新たな指令

トーゴーの日シンポジウムも無事に終わり、今度はもっと数多くのアブストラクトを用いて関連解析を行うことになりました。 今回用いるデータはフィールドの数が多いので、データの保持にデータベースを利用して、探索を速く行えるようにすることにしました。…

gackelさんとの結果マージ

gackelさんの動作指針で作られたエッジと、私が得られた結果を両方鑑みて、お互いのエッジの中から有効そうなもののみを残してマージするような方法を模索しました。 私の方の出力では共有単語数自体にあまり重要度は無く、あるポスターについて、共有単語数…

ポスター相関解析図の編集

gackelさんがいい感じにグラフの見た目をよくしてくれたので、私もそういう感じにノードの大きさや表示形式をいじってみました。 まずノードのラベルとしてポスター番号だけではなく発表者の名前も表示されるように、ポスター要旨の掲載ページから「発表者」…