音声認識メモ(Kaldi)その12(delta特徴量)
音声データは、時系列で見た変化量も特徴となりえる。
デルタ特徴量の追加は「featbin/add-deltas」コマンドを使う。
元々の特徴量(MFCC)が13次元だとすると、出力結果は、deltat特徴量13次元、delta-delta特徴量13次元を加えて、39次元になる。
delta特徴量(前後の5frameを加算)
各フレームには下表のScaleを掛ける。
例えば、198フレームあったとすると、足し合わされる5フレームは下表のとおり。
値はframe offsetを表す(0 は 最初のframeを意味する)
( )内は、該当するframeが存在しないため、読み替えたframe
計算例を示す。
mfccが下図のとおりであるとすると、
最初のフレームのdelta特徴量は以下のとおり計算される。
( -0.2 * 15.22696 ) + ( -0.1 * 15.22696) + ( 0.0 * 15.22696) + ( 0.1 * 13.74839) + ( 0.2 * 12.28543) = -0.736165
delta-delta特徴量(前後の9frameを加算)
各フレームには下表のScaleを掛ける。
例えば、198フレームあったとすると、足し合わされる9フレームは下表のとおり。
計算例を示す。
最初のフレームのdelta-delta特徴量は以下のとおり計算される。
( 0.04 * 15.22696) + ( 0.04 * 15.22696) + ( 0.01 * 15.22696) + ( -0.04 * 15.22696) + ( -0.1 * 15.22696) + ( -0.04 * 13.74839) + ( 0.01 * 12.28543) + ( 0.04 * 12.77255) + ( 0.04 * 14.69498) = -0.089728