2011-05-01から1ヶ月間の記事一覧

単語出現頻度解析Part2

今回は、単語の出現回数を計算するのに、一度完全一致で調べて、その後正規表現を用いて全ハッシュ内を再度調べて、引っかかるものに元の検索ワードの出現回数を上乗せして、言葉の上位概念に対して偏りが出るようにしました。 結果、その論文の中核となる単…

単語出現頻度解析

一行に一単語のテキストファイルを用いて、一行ずつ読み込み、その単語が%freqハッシュのキーとして登録されているかを調べて、登録されていれば値を1増やし、登録されていなければ新たにハッシュに登録するPerlスクリプトを作成しました。テキストファイル…

MeCab後の用語回収Test

今回は、MeCab切断した文節に書かれた、「名詞」のfeatureを利用して、連続する名詞だけを結合してファイルに書き込むPerlスクリプトを作成しました。 これだと、「これ」とか「それら」とかの無意味な単語も残ってしまうので、MeCabのノード内で「代名詞」…

Webページ抽出の精度向上&生物用語チェック

前回作成したHtmlパーサを改善し、不要なstrongタグとdivタグ内部のテキストを破棄し、抽出したテキストが"文 献"だったら、そこで抽出を終了するようにして、必要な論文タイトルと本文のみを回収できるようになりました。 今回はその後、「in vitroでマウス…

Webページからのテキスト抽出

今回は、きちんと新着論文レビューのWebページのソースコードを解析して、論文本文を抽出するPerlスクリプトを作成しました。 PerlのLWP::SimpleモジュールでURLを指定し、HTML::TreeBuilderでタグごとにツリー化して、divタグの中身を指定して、contentleft…

OpenOfficeとの格闘&PerlのHTML::TreeBuilder

前回MeCab解析したのを成形して印刷しようと、初めてOpenOfficeなるものを使ってみた。余白の設定とか行数指定に文字の最大Ptいじらなきゃならないとか、いろいろ面倒で結構時間食ってしまったorz しかも段組みの表示がバグってしまってなんだこりゃあ。まぁ…