音声認識メモ(Julius)その3(孤立単語)

juliusで音声を認識する過程をトレースする。

HMMはモノフォンのモデルとし、「m」、「o」、「s」、「i」、「silB」、「silE」が学習済みであるとする。

言語モデルは孤立単語(-w オプション)とし、辞書は以下とした。

MOSIMOSI  m o s i m o s i
MOMO      m o m o
IMO       i m o

Julius起動時に「木構造化辞書」(lexicon tree、word-conjunction HMM)が構築される。
github.com

単語はソートされ、始まりから途中まで、音素列が同一のものは共有される。

整列後の単語
IMO       i m o
MOMO      m o m o
MOSIMOSI  m o s i m o s i
木構造化辞書

f:id:ichou1:20180107104957p:plain

カッコ内の数字はHMMの状態番号、丸枠の下はノード番号を表す。

木構造辞書をもとに、ある時間における、各ノードの遷移確率、出力確率を求める。

time=3の時、可能性が有るノード

f:id:ichou1:20180107112617p:plain

time=4の時、可能性が有るノード

f:id:ichou1:20180107112630p:plain