2011-07-01から1ヶ月間の記事一覧

追加禁止単語リストの作成・利用

低頻度辞書をみて、ここに出てきてしまう生物用語ではない単語について、MeCabによる解析時に、頻度ハッシュに追加しないようにする為のテキストファイルを自作し、ここに書かれている単語を実行時に読み出し、ハッシュへの追加を抑制するように、モジュール…

低頻度リストの作成・利用

今回は、頻度解析の部分にプログラムを追加し、各々の論文における低頻度出現単語を一つのファイルにまとめて、それらが別の論文で高頻度で出現していれば、それを低頻度辞書として登録していくようにしました。 まず、低頻度と言えるボーダー値よりも低い単…

MeCab切断・登録部の調整

今回は、MeCabによる形態素分析から、「サ変接続」の名詞で、その形態素の前後に「名詞」のものがないような単語については、生物用語になることがほとんどないことを確かめた上で、その単語を読み捨てるという動作をプログラムに追加しました。形態素$nにつ…

HTML::ColorKeywords採用&MeCab頻度解析再考

今までハイライトに用いていたHTML::Highlightは、一度ハイライト用のタグを導入した単語に対しても、新たにハイライトタグを導入してしまうという問題を抱えている為に、正しく検索文字列がハイライトされなかったり、実行時間がかなりかかるという現象があ…

ホームページの微調整&MeCab切断スクリプトのモジュール化

今まで全ての動作を一つのPerlスクリプト内に記述していましたが、今後単語解析の部分をいじっていって、それらをHTMLに表示したり、テキストファイルにして調査したりするので、別々の用途用のPerlまたはCGIプログラムから同等の機能を得られるようにするた…

単語解析CGIの暫定版v1.0.0公開

前回、MeCabバインディングのインストール時に、使用するMeCabの種類を指定してあったので、以前にインストールしたときのmecab-perlとフォルダを削除して、CGI内で、use lib 'Users/(ホームフォルダ)/local/lib/perl5/darwin-multi-2level';の文を先頭に加…

MeCabとの格闘

今回は、サーバ上でうまく動かなかったMeCabを動かそうと、PATHまわりを確認しました。まず、正常に動くMeCabは、MacPortsを利用してインストールした、/opt/local/bin/mecabだったので、これにMeCab.pmがうまく対応するように、MeCabバインディングをインス…

CGIとMeCab

前回、何度やってもサーバがTimeoutしたと言ってくるので、その原因を追及すべく、いろいろ試しました。 まず、とりあえずMeCabで頻度解析したファイルを用意し、URLの入力に対し、それに対応するファイルが存在するなら、演算せずに、そのままハイライトし…

CGIプログラムの作成

今までに作ってきたPerlスクリプトを混ぜ合わせて、URLを受け取ってそのページをテキストファイルとして取得し、MeCabで切断したファイルを作成し、それをもとにHtmlにハイライトを追加するCGIプログラムを作成して、g86サーバにのせるとこまで行いました。 …