音声認識メモ(Kaldi)その22(アライメント)

kaldi 音声認識

decodeの過程を掘り下げてみる。アライメントで出力される数値（インプットであるMFCC特徴量の各フレームに1対1で紐付けられる）は何を示しているか。今回は、デコードシェル（egs/wsj/s5/steps/decode.sh）の内部でコールしているlattice生成コマンドのアウ…

2018-07-22

音声認識メモ(Kaldi)その21(音韻モデル)

音声認識 Julius kaldi

認識対象を孤立単語から発展させて、もう少し実用的な使い方を試してみる。まず、トレーニング対象の発話を音素に分解する。元の文オススメの料理は何ですか文を単語へ分解（分かち書き、「MeCab」を使用）オススメの料理は何ですか単語を音素列…

2018-07-15

音声認識メモ(Kaldi)その20(トレーニング Dan's DNN(nnet2))

kaldi 音声認識

nnet2での学習の流れを追ってみる。今回は、活性化関数に「tanh」を使った「nnet4c」を対象とした。 ${KALDI_ROOT}/egs/rm/s5/local/nnet2/run_4c.sh # for CPU only (with --use-gpu false). steps/nnet2/train_tanh_fast.sh \ --stage -10 \ --minibatch-s…

2018-07-08

音声認識メモ(Kaldi)その19(Toolkitスクリプト(3))

音声認識 kaldi

前回の「Kaldi for Dummies tutorial」では、トライフォンの初期学習までであった。 TRI1 - simple triphone training (first triphone pass). この後の処理を確認してみる。「egs/rm/s5/RESULTS」には各実装（experiments）でのWERが出力されており、いくつ…

2018-07-01

音声認識メモ(Kaldi)その18(Toolkitスクリプト(2))

kaldi 音声認識

自前で用意した音声データを認識させる手順はKaldi for Dummies tutorialに説明されている。"for Dummies"("サルでも分かる")という位だから、「yes/no」サンプル（前回の記事）の次に試すのはこれがいいのだろう。流れを大まかに書き出してみると以下のとお…

ichou1のブログ

主に音声認識、時々、データ分析のことを書く

2018-07-01から1ヶ月間の記事一覧

音声認識メモ(Kaldi)その22(アライメント)

音声認識メモ(Kaldi)その21(音韻モデル)

音声認識メモ(Kaldi)その20(トレーニング Dan's DNN(nnet2))

音声認識メモ(Kaldi)その19(Toolkitスクリプト(3))

音声認識メモ(Kaldi)その18(Toolkitスクリプト(2))