2011-06-01から1ヶ月間の記事一覧

g86へsshログイン&サーバからCGI実行

今日は、牧場でiNutさんに教えてもらって、sshログインの為の公開鍵の作成と、サーバへのコピーを行って、自分のアカウントでログインできるようにしました。秘密鍵の方について、configを書いてすぐにsshログインできるようにしました。紆余曲折ありました…

PerlプログラムのCGI化

生物用語にハイライトを加えるPerlプログラムを、今回CGIに置き換えてWebサーバ上で動くようにしました。Webサーバは、統合牧場を管理しているApacheを使用し、作成したCGIをフォルダに入れて、引数にURLを受け取ってそのページにハイライトのためのタグを追…

Javascriptによるハイライトの原理&構想

今回はプログラミングは少しお休みして、JavaScriptをつかってWebページにハイライトを追加する方法と、その様子を調べてみました。個人的に一番しっくりきたのは、「kuroの雑記帳」様の、選択した文字列をハイライト表示するブックマークレットを作ってみた…

HTML::Highlightを用いて、頻度ファイルからページにハイライト

Htmlファイルの特定の文字列について、ハイライトのためのタグを導入してくれるモジュール「HTML::Highlight」をインストールして、現在テキストファイルになっている頻度計算ファイルの単語をつかって、元ページにハイライトを追加してみました。新着論文レ…

出現頻度再演算&ユーザ辞書の作成

今までのプログラムでは、「細胞」は数百個と出てくるのに対し、「精原細胞」などは1つしかでないことがあって、これを落としてしまっていたので、一度頻度を計算したら、その頻度値を使ってもう一度正規表現でのマッチングを行い、被マッチ語をマッチ語の頻…

頻度解析ファイル同士の結合

今までに分割して頻度計算を行ってきた10ファイルを利用して、これらの頻度を足し合わせるPerlスクリプトを作ってみました。コード自体は簡単で、結合データを保存したファイルを開いて、内部のハッシュにデータを取り込み(split関数)、その後結合したい頻…

単語出現頻度解析Part4

今回は、MeCab切断後に残ってしまう無意味なひらがな名詞を切り飛ばそうと、新たに出力単語を決める前にひらがなのみの名詞がMeCabリストから帰ってきた場合、それを無視するように設定しました。 また、頻度計算時に文字列の長さを調べて、日本語なら6文字…

単語出現頻度解析Part3

前回のスクリプトのアルゴリズムだと、先に頻度演算をして頻度の値を足されてしまった単語は、後に演算するものに比べてその値が小さくなってしまうという問題を含んでいたので、今回はすべての単語について平等に頻度の値を増加させるため、一つの単語に3つ…