2011-11-01から1ヶ月間の記事一覧

再びColorKeywords.pmとにらめっこ

新たに追加された論文、「異なるニッチに存在する腸管上皮幹細胞のあいだの相互関連」をプログラムに渡すと、MeCabモジュールは正しく動き、頻度ファイルは作成されるのですが、生物用語に蛍光をつけるColorKeywordsの部分でエラーが生じてしまいました。 こ…

生物用語Webマイニング

昨日に引き続き、BiologicalWordWeb.plの作成を行いました。昨日の時点ではまだ1単語しかチェックしなかったので、手動でWikipediaを検索しつつ、プログラムの方でまとめて連続で単語を検索するようにしました。while ( ($line = ) && ($limit >0) ) { chomp…

頻度解析モジュールの調整&BiologicalWordWeb.plの作成開始

前回から1週間ほど開いてしまって、新しくFirstAuthor'sのページに追加された論文が増えてきたので、今回もまたこれらを元にプログラムの性能実験を行って、誤ったポイントを修復しました。 まず、「相同染色体」が「同染色体」と切断されてしまうなどのMeCa…

Webインターフェースの更新&BioWebSearch.plの構想

@gackelNL氏のページが改良され、プログラム間の関係性がWebサイトを通じて作られたので、現在公開中の単語解析プログラムのページのトップを変更し、二人のページに飛べるようにリンクを変更しました。 「分類検索」の方に飛ぶと、論文がタグで分けられてお…

Webマイニングプログラムの構想

論文から生物用語と思われる単語を抽出することがだいたいできるようになったので、今度はそれを利用してさらに情報を得たり、論文を読みやすくする為に、新たにプログラムを追加していこうと思っています。 論文からの単語をWikipediaなどの用語系サイトで…

モジュール調整の続き

新たに追加された論文で、一部正しくMeCabで切断できないところがあったので、モジュールを調整しました。 まず、前回追加した、数字とそれに続く部分を切断していく部分ですが、elsif ($strings ne "" && $n->{surface} =~ /^([0-9,]+)$/ && $n->{next}->{f…

ColorKeywordsとの格闘

新しい論文に対してプログラムを作用させたところ、「2H++」とか「[Fe-3]」といった単語に正規表現をかけようとすると、量指定子などの問題で、HTML::ColorKeywordsが落ちてしまうという問題が起きてしまいました。 この機会にモジュールの中身をのぞいたと…

MeCabユーザ辞書と低頻度辞書更新&今後の方針

前回に引き続き、論文をプログラムにかけて、得られた頻度ファイルを見て、生物用語としてふさわしくないものを見つけたので、モジュールの改善を行いました。 まず、数字の扱いですが、「〜10例」とか、大事な単語の後に、名詞として連続で数字が入ることが…