出現頻度再演算&ユーザ辞書の作成

 今までのプログラムでは、「細胞」は数百個と出てくるのに対し、「精原細胞」などは1つしかでないことがあって、これを落としてしまっていたので、一度頻度を計算したら、その頻度値を使ってもう一度正規表現でのマッチングを行い、被マッチ語をマッチ語の頻度値分大きくするという作業を追加しました。これにより、頻度の大きい言葉につられて低い言葉をサルベージできるようになりました。
 その後、今度は本来含まれてはいけない単語(「〜どうし」など)を切り取るため、のぞく言葉のリストをテキストファイルにいれ、そこに登録された言葉は含めないようにしました。多くの論文で「予想どおり〜」とか「いちど〜」などの言い回しが使われているので、その「どおり」や「いちど」という言葉を拾わないようになっています。将来的にはこれらを自動で作れるようになればいいですが、ユーザに入力してもらうぐらいが限界かもしれません。
 また、「遺伝子座が」というような言葉は、「座が(座臥)」という日本語が存在するために、「座が」が名詞として切り取られてしまうことがあります。これを阻止するため、MeCabのユーザ辞書を作り、「遺伝子座,-1,-1,500000,名詞,一般,*,*,*,*,遺伝子座,イデンシザ,イデンシザ」で登録して、コンパイルしてからプログラムを実行するようにしました。これにより無事「座が」はなくなりましたが、例外的な生物用語はほかにもあると思われるので、見つけ次第登録していく感じです。

 さて、今後ですが、今は結果をテキストファイルに出力していますが、これを利用して、ウェブページ上で生物用語をハイライトできるようになったら見やすいんじゃないかなと思いました(というアドバイスをもらいました)。その辺のプログラミングはまだ経験が浅いですが、なんとか作成してみたいです。