音声認識メモ(Kaldi)その2(decode)
Kaldiで実際に音声を認識させてみる。
以下のサイトを参考にさせていただいた。
Kaldi - Training 1
Kaldiに関する処理を日本語のドキュメントでまとめてみた(デコーディング編)6 - Qiita
使ったのは"もしもし"という発話データ(frame数198)。
実行コマンド
src/gmmbin/gmm-decode-faster \ --word-symbol-table=data/lang/words.txt \ exp/tri/final.mdl \ HCLG.fst \ ark:mfcc/mosi1.ark \ ark,t:-
渡しているパラメータは次のとおり(Usageより抜粋)。
Decode features using GMM-based model. Usage: gmm-decode-faster [options] model-in fst-in features-rspecifier words-wspecifier Options: --word-symbol-table : Symbol table for words [for debug output]
「exp/tri/final.mdl」がトライフォンのモデルで、「HCLG.fst」がグラフ。
「mfcc/mosi1.ark」が特徴量ファイルで、結果はテキスト形式で標準出力に出力するように指定している。
Symbol table for words(data/lang/words.txt)
<eps> 0 !SIL 1 <UNK> 2 MOSIMOSI 3 #0 4 <s> 5 </s> 6
結果
utterance_id_001 3 utterance_id_001 MOSIMOSI LOG (gmm-decode-faster[5.3.106~1389-9e2d8]:main():gmm-decode-faster.cc:196) Log-like per frame for utterance utterance_id_001 is -9.01644 over 198 frames. LOG (gmm-decode-faster[5.3.106~1389-9e2d8]:main():gmm-decode-faster.cc:209) Time taken [excluding initialization] 0.031435s: real-time factor assuming 100 frames/sec is 0.0158763 LOG (gmm-decode-faster[5.3.106~1389-9e2d8]:main():gmm-decode-faster.cc:212) Done 1 utterances, failed for 0 LOG (gmm-decode-faster[5.3.106~1389-9e2d8]:main():gmm-decode-faster.cc:214) Overall log-likelihood per frame is -9.01644 over 198 frames.
"MOSIMOSI"と認識できている。