ichou1のブログ

主に音声認識、時々、データ分析のことを書く

2018-05-01から1ヶ月間の記事一覧

音声認識メモ(Kaldi)その14(特徴量変換 Dan's DNN(nnet2))

LDA変換用パラメータは教師データの統計をもとに作成する。 統計データ作成には「bin/acc-lda」コマンドを使う。 「bin/acc-lda」コマンド Accumulate LDA statistics based on pdf-ids. Usage: acc-lda [options] <transition-gmm/model> <features-rspecifier> <posteriors-rspecifier> <lda-acc-out>インプットは以下のとおり。 モデル(GM</lda-acc-out></posteriors-rspecifier></features-rspecifier></transition-gmm/model>…

線形変換(無相関化と次元削減)

音声認識の前処理やパターン分類で使われる線形変換についてメモしておく。 ここでは、"無相関化"と"次元削減"の2つの視点でまとめてみる。 PCA(Principal Component Analysis;主成分分析)を想定。2変数(x, y)で表されるの3つのサンプルデータがあったとす…

音声認識メモ(Kaldi)その13(特徴量変換 Dan's DNN(nnet2))

Dan氏による実装版(nnet2)の中身を見てみる。公式ドキュメントの説明によると、インプットとなる特徴量(MFCC)に対して、次の変換を行うとある。 Dan氏の論文でいうところの、baseline/Type I featuresにあたるようだ。 splice LDA(linear discriminant Analy…

音声認識メモ(Kaldi)その12(delta特徴量)

音声データは、時系列で見た変化量も特徴となりえる。デルタ特徴量の追加は「featbin/add-deltas」コマンドを使う。元々の特徴量(MFCC)が13次元だとすると、出力結果は、deltat特徴量13次元、delta-delta特徴量13次元を加えて、39次元になる。 delta特徴量(…

音声認識メモ(Kaldi)その11(学習率 Karel's DNN)

学習の過程をトレースしてみる。スクリプト「steps/nnet/train.sh」を実行すると、内部で「steps/nnet/train_scheduler.sh」をコールし、「nnetbin/nnet-train-frmshuff」を実行する。今回、"もしもし"という発話(198フレーム)の音声ファイルを3つ用意し、…