知識抽出の青写真

 First Author'sのレビューから生物学用語がとれるようにはなりましたが、今度はこれらの単語を利用して、その論文でクリティカルな要素・知識を取り出せるようにしていこうと思っています。
 とりあえずは私がレビューを読む上で、「こういう風にまとめてもらえたらな」と思うものを出力してくれるようなプログラムを作っていこうかと考えました。学習するプログラムを作るにしても、出力結果が決まっていないと学習しようがないので、まずは目的をはっきりさせておきたいと思いました。
 いろいろ考えましたが、レビューの内容を文単位で切断し、筆者が主張したいことが書かれている文に特異的に使われている単語を取り出し、その文内の生物学用語と結びつけてタプルとして結果を出力するプログラムを作ろうと思っています。試しにレビューを読んでみたところ、「明らかになった」とか「思われる」とかいった単語が大事な文では使われているような感じだったので、正規表現などを用いて処理できそうです。
 他にも、レビュー内の用語の関係性をグラフにしてみようとも考えましたが、複雑すぎると見づらいと思われるのでとりあえず保留にすることにしました。今後やっていくうちに方針を考え直すかもしれないので、その時に試してみようと思います。
 今日はとりあえず正規表現でピリオドでsplitしてみて文ごとにリストにpushする部分だけ実装しました。今後このリストを使って関係性を抽出していこうと思います。