音声認識メモ(Kaldi)その2(decode)

Kaldiで実際に音声を認識させてみる。

以下のサイトを参考にさせていただいた。
Kaldi - Training 1

Kaldiに関する処理を日本語のドキュメントでまとめてみた(デコーディング編)6 - Qiita



使ったのは"もしもし"という発話データ(frame数198)。

実行コマンド
src/gmmbin/gmm-decode-faster \
--word-symbol-table=data/lang/words.txt \
exp/tri/final.mdl \
HCLG.fst \
ark:mfcc/mosi1.ark \
ark,t:-

渡しているパラメータは次のとおり(Usageより抜粋)。

Decode features using GMM-based model.
Usage:  gmm-decode-faster [options] model-in fst-in features-rspecifier words-wspecifier 
Options:
--word-symbol-table         : Symbol table for words [for debug output] 

「exp/tri/final.mdl」がトライフォンのモデルで、「HCLG.fst」がグラフ。
「mfcc/mosi1.ark」が特徴量ファイルで、結果はテキスト形式で標準出力に出力するように指定している。

Symbol table for words(data/lang/words.txt)
<eps> 0
!SIL 1
<UNK> 2
MOSIMOSI 3
#0 4
<s> 5
</s> 6
結果
utterance_id_001 3 
utterance_id_001 MOSIMOSI 
LOG (gmm-decode-faster[5.3.106~1389-9e2d8]:main():gmm-decode-faster.cc:196) Log-like per frame for utterance utterance_id_001 is -9.01644 over 198 frames.
LOG (gmm-decode-faster[5.3.106~1389-9e2d8]:main():gmm-decode-faster.cc:209) Time taken [excluding initialization] 0.031435s: real-time factor assuming 100 frames/sec is 0.0158763
LOG (gmm-decode-faster[5.3.106~1389-9e2d8]:main():gmm-decode-faster.cc:212) Done 1 utterances, failed for 0
LOG (gmm-decode-faster[5.3.106~1389-9e2d8]:main():gmm-decode-faster.cc:214) Overall log-likelihood per frame is -9.01644 over 198 frames.

"MOSIMOSI"と認識できている。