音声認識メモ（HMM）その6(HTK HERest コマンド(3))

「forward-backward」（またはalpha-beta）アルゴリズムの後ろ向き確率が求まったら、
続けて前向き確率を求める。

t=2において、ラベル1の状態2にいる確率（下図の赤枠）は

f:id:ichou1:20171125182048p:plain

①(t=1でラベル1の状態2にいる確率) * ②(遷移確率) * ③(出力確率)

により求まる。

log ( ① * ② * ③ )
= log( ① ) + log( ② ) + log( ③ )
= (-76.116) + log( 0.6 ) + (-83.129)
= (-76.116) + (-0.510) + (-83.129)
= -159.757

これに、後ろ向きにより求めた、t=2において、ラベル1の状態2にいる確率を掛け合わせて対数をとる。

log ( 前向き確率 * 後ろ向き確率 )
= log( 前向き確率) + log( 後ろ向き確率 )
= (-159.757) + ( -15460.627 )
= -15620.384

後ろ向きにより求めたベストパス(t=1において、ラベル1の状態1にいる確率)との比を求める。

log( ( 前向き確率 + 後ろ向き確率 ) / ( 後ろ向きベストパスの確率 ) )
= log( 前向き確率 + 後ろ向き確率 ) - log( 後ろ向きベストパスの確率 )
= ( -15460.384 ) - (-15620.139)
= 0.245

これを確率に直し、「t=2でラベル1の状態2にいる確率」を求める。

exp(-0.245)
= 0.782

同様に、t=2において、ラベル1の状態3にいる確率（下図の赤枠）は

f:id:ichou1:20171125182203p:plain

log ( ① * ② * ③ )
= log( ① ) + log( ② ) + log( ③ )
= (-76.116) + log( 0.4 ) + (-83.129)
= (-76.116) + (-0.916) + (-83.129)
= -160.162

後ろ向きにより求めた、t=2において、ラベル1の状態3にいる確率を掛け合わせて対数をとり、

log ( 前向き確率 * 後ろ向き確率 )
= log( 前向き確率) + log( 後ろ向き確率 )
= (-160.162) + ( -15461.502 )
= -15621.664

後ろ向きにより求めたベストパス(t=1において、ラベル1の状態1にいる確率)との比を求める。

log( ( 前向き確率 + 後ろ向き確率 ) / ( 後ろ向きベストパスの確率 ) )
= log( 前向き確率 + 後ろ向き確率 ) - log( 後ろ向きベストパスの確率 )
= ( -15621.664 ) - (-15620.139)
= -1.525

これを確率に直し、「t=2でラベル1の状態3にいる確率」を求める。

exp(-1.525)
= 0.217

これを繰り返すことで、ある時間における、各ラベル、各状態の確率が求まる。
（ある時間における確率の総和は1）

これを全時間に対して求めると、各ラベル、各状態のoccupation probability（占有確率：状態を専有する確率）が求まる。

f:id:ichou1:20171127204410p:plain

例えば、ラベルq=1の状態2の占有確率は「4.55574036」で、全体に占める割合は、

4.55574036 / 198
= 0.023

「2.3」%となる。

占有確率をもとに、HMMにおける平均、分散、遷移確率を更新する。

モデルの平均の更新

以下、「モデルにおけるMFCC-1の平均」を更新する例。
f:id:ichou1:20171127212052p:plain

1. 「ある時間における観測値」と「モデルの平均」の差(zmean)を求める
2. 「ある時間における確率」(Lr)を掛け合わせたもの(zmean*Lr)を合計する（上図例では「7.013」）

3. (zmean*Lr)の合計を占有確率で割った値を求める
f:id:ichou1:20171127213536p:plain

4.「モデルにおけるMFCC-1の平均」（更新前）に足し合わせる

「モデルにおけるMFCC-1の平均」（更新前） + 1.53958738
= -7.092237 + 1.53958738
= -5.5526495

これが、更新後の値となる。

モデルの分散の更新

以下、「モデルにおけるMFCC-1の分散」を更新する例。
モデルの分散（更新前）は使わない。
f:id:ichou1:20171217092827p:plain

1. 「ある時間における観測値」と「モデルの平均」の差(zmean)の２乗を求める
2. 「ある時間における確率」(Lr)を掛け合わせたもの(zmean*zmean*Lr)を合計する（上図例では「75.579」）

3. (zmean*zmean*Lr)の合計を占有確率で割った値を求める
f:id:ichou1:20171217090424p:plain

4.平均の項で求めた、(zmean*Lr)の合計を占有確率で割った値（今回の例では1.539）の2乗を、3.で求めた値から引く

16.589 - (1.539)^2 
= 14.219

これが、更新後の値となる。

モデルの遷移確率の更新

ある時間における遷移確率の合計を、占有確率で割る。
「x」はベストパスとの差(対数での値)。時間が経つほど乖離が大きくなる（確率として低くなる）。
exp(x)は確率に換算した値（0から1の範囲をとる）
f:id:ichou1:20171217114023p:plain
青枠の和（0.611 + 0.170）＝緑枠（0.782）が成立する。