2012-09-01から1ヶ月間の記事一覧

相関解析の続き

トーゴーの日ポスター間から共通して使用される単語の数を元に相関判定をしますが、基準となる単語を選別して、より意味のある単語が共有されていることを相関の根拠にしようと考えました。 まず一般的な文章でもよく出現する単語の出力を抑制しようと考え、…

ポスター間の相関ネットワーク図作成

前回どのような単語がポスター間で使われているのかが分かったので、今回はそれを利用してポスター間の関係性をネットワーク図にしてみようとしました。 まずネットワーク図を表示するプログラムとして、Cytoscapeを利用することにしました。これは統合TVで…

ポスター要旨間で単語出現頻度解析

前回トーゴーの日のポスター要旨をパースするところまでできたので、今回はそれを利用して、MaCabに渡して単語ごとに分けてからそれぞれの出現頻度を解析するRubyモジュールを作成しました。 まずMeCabのRubyバインディングをまだインストールしていなかった…

チャンクリストの調整&トーゴーの日ポスター解析

行の属性推定プログラムはほぼ完成し、後はチャンクリストに登録してある行推定用のチャンクを選別するだけになりました。まずいくつかのレビューをプログラムに渡して結果を見てみて、結論の行だと思われるのに前提行として判別されているような場合につい…

取得した新規チャンクを推定用チャンクリストに追加

論文レビューの数を50〜70ぐらいに制限しながら、属性推定に使えそうなチャンクを自動回収させるプログラムを走らせてみました。これぐらいの数のとき、「今後、」とか「詳細に」といったチャンクが取得できていることが分かったので、今度はそれを属性推定…

新規チャンク取得の続き

前回、全論文レビューを対象にした新規チャンクの取得プログラムで、正規表現エラーなどの問題が残っていたので、今回はその修正から始めました。 この正規表現エラーについては、あるチャンクにエスケープが必要な記号が含まれることが原因だったので、Ruby…

新規チャンクの取得を全論文レビューを対象にする

前回作成した、現在のチャンクリストを利用して行の属性推定を行った後に、そこに使用されている未登録チャンクを抽出するというコードを拡張し、全ての論文レビューを巡回してきて、未登録チャンクを回収するというように、プログラムの作成と修正を行いま…

g86サーバに修正プログラムアップロード&公開ページの細かな修正

今までに作成してきた行の属性推定プログラムについて、g86サーバにアップロードして、新たな文節リストをつかった属性推定と、属性推定に使えそうな文節を新たに追加するプログラムが外部からでも実行できるようにしました。 今後単語解析プログラムのペー…

推定に使えそうなチャンクを自動判別&不要なチャンクをファイルに書き出し

今までは属性推定に用いるチャンクは、私が目で見て使えそうだと判断したものをファイルに書き込んでおき、プログラム実行時にそれを読み出して使っていましたが、大体行の属性推定が上手く行くようになってきたので、まだ使用していないチャンクも属性推定…