2012-08-01から1ヶ月間の記事一覧

精製チャンクを利用した行推定の続き

前回に続き、精製チャンクを利用するためChromHMMプログラムの修正を行いました。今までは過去形の文章しか対象にしていませんでしたが、チャンクを精製したのでそのチャンクを含む場合は現在形の文章も推定対象に含めることにしました。if line[0] =~ /た$|…

精製チャンクを利用した行属性推定

Wikipediaから得たチャンクリストを使って、新着論文レビューから得たチャンクリストから無意味なチャンクを除いたので、今回はそれらが実際に論文レビューでどのように出現しているのかを確かめながら、チャンクを行属性推定に用いるために属性ごとに分類し…

Wikipediaのチャンク頻度と新着論文レビューのチャンク頻度の比較

前回Wikipediaから一般文章のチャンク頻度リストを作成したので、今回はそれと新着論文レビューのチャンクリストを比較し、同じチャンクは無意味と考えて除いていくプログラムを作成しました。 「この」とか「その」といったチャンクは、そのソースによらず…

Wikipediaチャンク頻度解析プログラムの実行&デバッグ

前回のWikipediaページの文字コードバグについて原因を調べたところ、前にも引っかかったHTML特殊文字の変換失敗が悪さをしているようでした。今回はRubyを使用しているので、RubyでHTML特殊文字を正しく変換してくれるものを探したところ、CGI.unescape()を…

Wikipediaの文章からチャンク頻度解析

新着論文レビューから得られたチャンク頻度解析のなかから、あまり意味の無いチャンクを除くため、一般的な文章でチャンク頻度解析を行って重なる部分を除こうと考えました。 一般的な文章のソースとして、今回もWikipediaを利用することにしました。RubyでW…

レビュー内でチャンクの出現位置と頻度値を確認

前回論文レビューを読んでみて知識だと思われる文章をチェックする作業を行ったので、今回は実際にその各行にどのようなチャンクが含まれているのかを調査してみました。 調査にあたっては、いちいち行内のチャンクをチャンクリストで検索するのは面倒なので…

チャンクによる知識抽出のためにチャンクと知識の共起を調査

論文レビュー間でのチャンクの出現頻度が得られているので、実際にレビューを読んでみて新規知識だと思われる行を探し、その行とチャンクとの共起・相関を調べてみようと思いました。 最近登録されたレビュー2本を私が実際に読んでみて、そのレビューから得…

チャンク頻度考察と、高頻度チャンクの出現位置を調べるプログラム

前回作成した全レビューについてのチャンク出現頻度を使って、まずは累積頻度解析を行ってみました。Libreoffice Calcを用いて散布図を作成した見たところ、100回よりも出現回数が少ないチャンクが全体の約99.9%を占めていることが分かり、とりあえず100回以…

Rubyでの全角スペースの扱い

今まで作成してきたRubyプログラムの中で、日本語の一文を切り出してくる際、文頭に全角スペースや改行が含まれていることがあって、取り除く作業を行っていなかったので、今回それを正しく取り除くようにスクリプトを改良しました。 Rubyには文頭のスペース…