音声認識メモ(Kaldi)その12(delta特徴量)

音声データは、時系列で見た変化量も特徴となりえる。

デルタ特徴量の追加は「featbin/add-deltas」コマンドを使う。

元々の特徴量(MFCC)が13次元だとすると、出力結果は、deltat特徴量13次元、delta-delta特徴量13次元を加えて、39次元になる。

delta特徴量(前後の5frameを加算)

各フレームには下表のScaleを掛ける。
f:id:ichou1:20180503105258p:plain

例えば、198フレームあったとすると、足し合わされる5フレームは下表のとおり。
値はframe offsetを表す(0 は 最初のframeを意味する)
f:id:ichou1:20180503105810p:plain
( )内は、該当するframeが存在しないため、読み替えたframe

計算例を示す。
mfccが下図のとおりであるとすると、
f:id:ichou1:20180503110425p:plain

最初のフレームのdelta特徴量は以下のとおり計算される。

( -0.2 * 15.22696 ) + ( -0.1 * 15.22696) + ( 0.0 * 15.22696) + ( 0.1 * 13.74839) + ( 0.2 * 12.28543) 
= -0.736165
delta-delta特徴量(前後の9frameを加算)

各フレームには下表のScaleを掛ける。
f:id:ichou1:20180503111720p:plain

例えば、198フレームあったとすると、足し合わされる9フレームは下表のとおり。
f:id:ichou1:20180503111511p:plain

計算例を示す。
最初のフレームのdelta-delta特徴量は以下のとおり計算される。

( 0.04  * 15.22696) + ( 0.04  * 15.22696) + ( 0.01  * 15.22696) + ( -0.04 * 15.22696) + ( -0.1  * 15.22696) + ( -0.04 * 13.74839) + ( 0.01  * 12.28543) + ( 0.04  * 12.77255) + ( 0.04  * 14.69498)
= -0.089728