隠れ状態と単語ベクトル

 隠れマルコフモデルを利用するため、レビュー内の各行について、特定の単語が含まれているか否かというベクトルをまず用意し、それに対して隠れ状態、生起確率、遷移確率を定義して、各行の隠れ状態を推定していくことにしました。

W: 状態を示唆する単語の数
vt = の単語ベクトル
St: t番目の行の状態
pk,w: 状態kから単語wが出現する確率
bi,j: 状態iからjへの遷移確率

 これらを状態数を一つずつ増やしながらエントロピーを最大化するものを選んでいき、いくつかの状態に各行を分けていこうと思っています。ちなみにこのアルゴリズムは「ChromHMM」という、染色体の修飾状態を決めるために考案されたものを使用しています。