ichou1のブログ

主に音声認識、時々、データ分析のことを書く

2018-07-01から1ヶ月間の記事一覧

音声認識メモ(Kaldi)その22(アライメント)

decodeの過程を掘り下げてみる。アライメントで出力される数値(インプットであるMFCC特徴量の各フレームに1対1で紐付けられる)は何を示しているか。今回は、デコードシェル(egs/wsj/s5/steps/decode.sh)の内部でコールしているlattice生成コマンドのアウ…

音声認識メモ(Kaldi)その21(音韻モデル)

認識対象を孤立単語から発展させて、もう少し実用的な使い方を試してみる。まず、トレーニング対象の発話を音素に分解する。 元の文 オススメの料理は何ですか 文を単語へ分解(分かち書き、「MeCab」を使用) オススメ の 料理 は 何 です か 単語を音素列…

音声認識メモ(Kaldi)その20(トレーニング Dan's DNN(nnet2))

nnet2での学習の流れを追ってみる。今回は、活性化関数に「tanh」を使った「nnet4c」を対象とした。 ${KALDI_ROOT}/egs/rm/s5/local/nnet2/run_4c.sh # for CPU only (with --use-gpu false). steps/nnet2/train_tanh_fast.sh \ --stage -10 \ --minibatch-s…

音声認識メモ(Kaldi)その19(Toolkitスクリプト(3))

前回の「Kaldi for Dummies tutorial」では、トライフォンの初期学習までであった。 TRI1 - simple triphone training (first triphone pass). この後の処理を確認してみる。「egs/rm/s5/RESULTS」には各実装(experiments)でのWERが出力されており、いくつ…

音声認識メモ(Kaldi)その18(Toolkitスクリプト(2))

自前で用意した音声データを認識させる手順はKaldi for Dummies tutorialに説明されている。"for Dummies"("サルでも分かる")という位だから、「yes/no」サンプル(前回の記事)の次に試すのはこれがいいのだろう。流れを大まかに書き出してみると以下のとお…