ichou1のブログ

主に音声認識、時々、データ分析のことを書く

2018-03-01から1ヶ月間の記事一覧

音声認識メモ(Kaldi)その7(decode with Karel's DNN)

Deep Neural Network Featuresを使ったdecodeを試してみる。 公式サイトKaldi: Deep Neural Networks in Kaldiによると3種類あるらしい。 nnet(Karel氏による) nnet2(Dan氏による) nnet3(Dan氏による) 今回はKarel氏によるバージョンを試してみる。 結…

音声認識メモ(Kaldi)その6(学習 その3)

モノフォンのモデルをもとに、トライフォンのモデルを作成する。まずは、統計量を作成。 bin/acc-tree-stats --ci-phones=1:2:3:4:5:6:7:8:9:10 2.mdl ark:mosimosi.ark ark:1.ali treeaccphone index 1〜5は「sil」、6〜10は「spn(spoken noise)」続けて、…

音声認識メモ(Kaldi)その5(学習 その2)

前回の続き。学習用グラフを作成したら、アライメントを作成する。 初期モデルに対しては「bin/align-equal-compiled」コマンドを使用する。 bin/align-equal-compiled ark:fsts.0 ark:mosimosi.ark ark:equal.align.0均等分割アライメントの出力結果は以下…

音声認識メモ(Kaldi)その4(学習 その1)

Kaldiにおけるモデルの学習過程を追ってみる。モデルを更新するにあたっては「gmmbin/gmm-est」コマンドを使う。 Do Maximum Likelihood re-estimation of GMM-based acoustic model Usage: gmm-est [options] <model-in> <stats-in> <model-out> e.g.: gmm-est 1.mdl 1.acc 2.mdl学習の際の</model-out></stats-in></model-in>…

音声認識メモ(Kaldi)その3(WFST)

Kaldiで使うモデルを作成してみる。ターゲットは、「もしもし」という発話。流れとしては、下図4つのモデルを作って合成する。 合成は以下の順番。 L ○ G ↓ C ○ (L ○ G) ↓ H ○ (C ○ (L ○ G))まず、Grammar。これはARPAファイルから生成する。 src/lmbin/arpa…