Wikipediaの本文取得&MeCab適応テスト

DBCLS

一般的な文章に対して、現在作成中のプログラムがどのような出力をするのか調べるべく、一般文章のソースとして、さまざまな人に書き込まれ、ジャンルも多岐にわたり、後々生物用語を調べるのに使えそうな、Wikipediaを採用することにしました。とりあえず…

ユーザ辞書の応用&続・足切りライン考察

DBCLS

今まで、「細胞どうし」とか「文字どおり〜」といった接続された名詞が残ってしまっていたので、これを排除すべく、ユーザ辞書に、頻度解析時に無視するように設定してある「非自立」というエントリーを無理矢理付加させて登録し、きれいに「細胞」だけが残…

DBCLS

また新たな論文に対応すべく、低頻度辞書と不用語辞書の更新と、ユーザ辞書の生成の行いました。まだ不用語辞書の構成は自動ではないので、手動でやりつつどんな感じにプログラムを書いていこうか考えることにします。また、生物用語とそうでない単語を分け…

DBCLS

今回も頻度解析モジュールのバグ取りです。数字が","で繋がっていると残ってしまうという問題があって、"12,13"みたいな無意味な数字が表示されていました。これを破棄するため、単語追加時に","も終了判定に用いて、数字を破棄させました。if ($n->{feature…

DBCLS

MeCabのインストールには、どうやらiconv_openなどを上手く利用した、文字コードの適切な指定が必要なようで、自分のアカウントにインストールしようとすると、この文字コードの指定が上手くいっていない部分があって、しかもそれが自分のアカウントからは見…

DBCLS

自分のアカウント上でにMeCabをインストールしようとしましたが、まずMeCabと辞書の日本語のエンコード方法にはまり、そのあとMeCabのPerlバインディングが何故か上手くいかず、MeCabによるパースのところで止まってしまってしまいました。 utf8になっていて…

DBCLS

今のプログラムでは、「サ変接続」単語は容赦なく削除されるんで、ここに生物用語が混じらないように、MeCabのユーザ辞書に追加する作業を行いました。とりあえず「転写」が削除されるのを防げるようになりました。ここで、今まで作成してきたユーザ辞書をg…

DBCLS

今回も、論文をプログラムに渡して、様子を見ながらスクリプトの細かいバグなどを調整しました。まず、どうしても残ってしまう「図1a」といった参照の文字列を除外するべく、「図」という文字があって、すぐ次の単語が数字または英字一文字だった場合、「図…

DBCLS

20通ほどの論文を現プログラムに渡して、どのように切断されてくるか、再びチェックしていきました。まず、低頻度辞書から生物用語でないものを探してきて、それを破棄リストに手動で追加してく作業を行いました。「数」とか「レベル」など、よく論文内で使…