音声認識メモ（HMM）その7(HTK HERest コマンド(4))

モノフォン(monophone)での音響モデルを作ったら、続けて、トライフォン（triphone）の音響モデルを作成する。

トライフォンというのは音素の３つ組のこと。
２つ組ならバイフォン（あるいはダイフォン）
これらは、音素(phone)に「MONO」、「BI」、「TRI」を付けたもの。

ある音素を"X"とした場合、直前の音素を"L" (Left)、直後の音素を"R"(Right)とすると、

 L-X+R

の形で表現される。

以下、「もしもし」という単語を「m o s i m o s i」のように音素で表した場合の例。

m-o+s
o-s+i
s-i+m
i-m+o

単語の先頭と末尾については、前後に接続する単語の影響を受けて変化することから（連続音声の場合）、

m+o

前に無音「sp」が入っていると考えれば、「sp-m+o」で表される。

s-i

後ろに無音「sp」が入っていると考えれば、「s-i+sp」で表される。

トライフォンモデルの学習は、モノフォンと同様に「HERest」コマンドを使う。

学習の前に、初期モデルを作る。
初期モデルの作成には、「HHEd」コマンド（HMM Edit）を使う。

まず、HHEdコマンドに渡すスクリプトを用意する。
スクリプトは以下のフォーマット。

CL "トライフォンのリスト"
TI T_m {(*-m+*,m+*,*-m).transP}
TI T_o {(*-o+*,o+*,*-o).transP}
TI T_s {(*-s+*,s+*,*-s).transP}
TI T_i {(*-i+*,i+*,*-i).transP}

1列目がコマンドを表す。
「CL」: Clone
「TI」: Tie

Tutorialのサンプルに含まれるPerl スクリプトを使って出力することもできる（実行すると"mktri.hed"が出力される）。

maketrihed "モノフォンのリスト" "トライフォンのリスト"

モノフォンの音響モデルとスクリプトをHHEdコマンドに渡す。

HHEd -H "音響モデル（monophone）" -M "出力先" mktri.hed "モノフォンのリスト"

これで、トライフォンの初期モデルができる。

初期モデルは、「トライフォンの中心音素」＝「モノフォンの音素」となる。
（例）「i-m+o」は「m」のモデルをコピー

ichou1のブログ