First Author'sのHTMLパーサ見直し&MeCabパーサのバグ

 新たにFirst Author'sに投稿されたページをプログラムに渡した結果を見て、いくつか気になったところがあったので修正しました。 まず、特定の単語の出典や文献を示す、"sup"タグの中の単語について、")"が単独で出てくることがあり、MeCabでは正常に対応付けができなくなっていたので、cgi内でHTMLを取得する段階で、このような記述を破棄するように書き換えました。

for $del ($tag->find("sup")) { #特定の表記を無視
if ($del->as_text =~ /\)/ && $del->as_text !~ /\(/) {
$del->delete;
}
}

となりました。
 さらに、MeCabパーサで、英単語間のスペースを入れる部分が誤っていたことが分かったので修正しました。

elsif ($n->{surface} !~ /^(\d+)$/ || length($strings) >3){ #数字のときはフラグを残す
$alflag = 0;
}

">"の向きが間違っていました。
 そして今日、私たちが3月16日の統合牧場収穫祭で発表をさせていただけるということを聞きましたので、それに向けてサービスの完成&準備をしていきたいと思います。目標は論文の自動タグ分類機能の実装です。