2011-10-01から1ヶ月間の記事一覧

MeCabユーザ辞書と低頻度辞書の更新

FirstAuthorsのページの中で、最近のものを選択しながら、その論文にプログラムを適応させたときの挙動を確かめました。 まず気になったのが、生物用語としては頻繁に使われ、もはや名詞のようになっている、「翻訳後修飾」とか「分化」といった単語が、MeCa…

テキストファイルへのアクセス時の文字コード固定

頻度ファイルへの参照リンクを張っているのですが、これを辿るとブラウザによってはUTF-8以外の文字コードを使用する為に、文字化けが生じてしまうので、これを防ぐ為に、httpサーバが「.txt」ファイルを送信するときに、UTF-8を使うように指定するようにし…

微調整とサイト更新

前回、「,」の扱いをかえた為に、英字とこのカンマが含まれた単語が残ってしまうというバグが発生していました。これを改善すべく、 if ($strings ne "" && $strings !~ /^([0-9,]+)$|^,*\w$/ )として、英字回りの判定を変更して、このバグをとりあえず取り…

モジュールの微調整、辞書更新

化学物質で、「〜-1,6-〜酸」みたいな内容の単語があったとき、途中の「,」が出力抑制文字である為に、この物質名が区切られてしまうというバグがあったので、これを解消すべく手を加えました。 まず、この「,」を抑制文字にすることをやめ、問題であった、…

HTML::Entitiesの利用…問題解決!

今回、取得したHTML文章に対し、HTML::Entitiesを利用して、文字列内の'&'をエスケープし、内部で'utf8'のマルチバイト文字に変換してからHTML::parseを行うことで、'&'を利用したHTML内の文字参照が、勝手にデコードされるのを抑制することができました。 $…

原因は特定…されど

どうやら、HTML::TreeBuilderで文章をパースした際に、「&」が頭につく文字参照が含まれていると、場合によってはUTF8フラグがついて、全体が文字化けてしまうようです。 個人的には、「&」がつく部分はそのままにしておいてほしいのに、HTML::Element->as_t…

CGIのバグ…?

とあるFirstAuthorsの論文、「カイコ発:piRNAがつくられるしくみ」に対し、CGIでHTMLを取得してくる部分で、正しく文字列を取得できない為に、上手く頻度解析ができていないことが判明しました。 どうやら、HTML::TreeBuilderで、文字のタグからas_textメソ…

モジュール調整&モジュールの紹介ページ作成

前回調整したモジュールにより、低頻度辞書の閾値を100としたことで、低頻度辞書への生物用語の拾い上げが上手くいっていたので、この設定を続けてみようと思います。 低頻度辞書をのぞいてみて、「イオンチャネル」と「チャネル」など、部分を含むような単…

HTML作り3回目&モジュール調整

作成したプログラム・サイトの目的や仕様について、公開しているサイトの「プログラム」の部分にリンクを追加し、少し開示しました。ここで根幹となるMeCabFreq.pmのモジュールのソースと、プログラム全体の流れを書いていこうと思っています。今はまだリン…