PerlのCaboChaモジュールを試してみた

 CaboChaをコマンドライン上で利用できるのは確認できたので、今度は付属のPerlバインディングを利用してみることにしました。
 その前に前回バージョンをあげたMeCabに合わせて、MeCabPerlモジュール0.993をインストールし、その後PerlモジュールCaboCha0.61をインストールしました。何かWarningが出ていたような気がしないでも無いですが、問題なくインストールできて、付属のtest.plを実行してみた結果、「太郎はこの本を次郎を見た女性に渡した。」という文章が問題なく係り受け解析されて出力されました。

 その後、試しに前回まで作っていた文章切断プログラムの末尾に、一行ずつ文章をCaboChaで係り受け解析するコードを加えてみました。例えば「この作用はPRDM16の増加と密接に関係しており,PPRAγリガンドによりPRDM16の半減期が延長することが明らかになった」という文章を解析してみると、

0 1D 0/0 1.185707
この 連体詞,*,*,*,*,*,この,コノ,コノ O
1 6D 0/1 0.766418
作用 名詞,サ変接続,*,*,*,*,作用,サヨウ,サヨー O
は 助詞,係助詞,*,*,*,*,は,ハ,ワ O
2 3D 0/0 1.242827
PRDM 名詞,一般,*,*,*,*,* O
3 4D 0/1 0.000000
16 名詞,数,*,*,*,*,* O
の 助詞,連体化,*,*,*,*,の,ノ,ノ O
4 6D 0/1 0.000000
増加 名詞,サ変接続,*,*,*,*,増加,ゾウカ,ゾーカ O
と 助詞,並立助詞,*,*,*,*,と,ト,ト O
5 6D 0/1 2.692013
密接 名詞,形容動詞語幹,*,*,*,*,密接,ミッセツ,ミッセツ O
に 助詞,副詞化,*,*,*,*,に,ニ,ニ O
6 12D 1/3 0.931195
関係 名詞,サ変接続,*,*,*,*,関係,カンケイ,カンケイ O
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ O
て 助詞,接続助詞,*,*,*,*,て,テ,テ O
おり 動詞,非自立,*,*,五段・ラ行,連用形,おる,オリ,オリ O
, 記号,読点,*,*,*,*,,,,,, O
7 10D 2/3 1.172849
PPRA 名詞,固有名詞,組織,*,*,*,* B-ORGANIZATION
γ 記号,アルファベット,*,*,*,*,γ,ガンマ,ガンマ I-ORGANIZATION
リガンド 名詞,固有名詞,組織,*,*,*,* I-ORGANIZATION
により 助詞,格助詞,連語,*,*,*,により,ニヨリ,ニヨリ O
8 9D 1/2 2.016563
PRDM 名詞,一般,*,*,*,*,* O
16 名詞,数,*,*,*,*,* O
の 助詞,連体化,*,*,*,*,の,ノ,ノ O
9 10D 1/2 0.000000
半減 名詞,サ変接続,*,*,*,*,半減,ハンゲン,ハンゲン O
期 名詞,接尾,一般,*,*,*,期,キ,キ O
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ O
10 11D 1/1 0.000000
延長 名詞,サ変接続,*,*,*,*,延長,エンチョウ,エンチョー O
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル O
11 12D 0/1 0.000000
こと 名詞,非自立,一般,*,*,*,こと,コト,コト O
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ O
12 -1D 2/3 0.000000
明らか 名詞,形容動詞語幹,*,*,*,*,明らか,アキラカ,アキラカ O
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ O
なっ 動詞,自立,*,*,五段・ラ行,連用タ接続,なる,ナッ,ナッ O
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ O
EOS


と出力されました。ここで表示されている文節で、生物学用語と判断されたもののの係り受けを追跡すれば、だいたい意味の通る文章を再構築できそうなことはわかりました。
 しかしながら、やはりその係り受け解析後の文章だけ見せられても、その論文を読んだという理解は得られなさそうです。例えば先の文章についても、「この」といった指示語が入っているので、この指示語をきちんと追っていないと何のことか理解できないと思われます。
 そのため、このプログラムをサービスとして有用なものにする為には、もう少し「どんな機能があってほしいと思われているのか」について的を絞っていく方がいいと思いました。