MeCab後の用語回収Test

 今回は、MeCab切断した文節に書かれた、「名詞」のfeatureを利用して、連続する名詞だけを結合してファイルに書き込むPerlスクリプトを作成しました。
 これだと、「これ」とか「それら」とかの無意味な単語も残ってしまうので、MeCabのノード内で「代名詞」、「非自立」を取り除き、surfaceの不要な文字「、」、「。」、「()」などを取り除くのを試してみました。
 いくつか、取り出されるべき生物用語もはじいてしまうミスがあったので、それを調整しつつ、今後は出現頻度をすべての行について計算して書き加えるコードを書けたらなと思います。
 おそらく、出現頻度を計算する過程で、ある程度の不要文字の削除はなされるはずなので、二つの作業を並行して設定していければいいかなと。けど、頻度計算プログラムは今考えてるのだとO(n^2)の計算量なので、もっといいアルゴリズムを探してこないといけないですね。ググりますか。