ichou1のブログ

主に音声認識、時々、データ分析のことを書く

2018-04-01から1ヶ月間の記事一覧

C++メモ(C++14を使うためのGCCアップデート)

C++14機能の「std::make_unique」を使おうとしたらコンパイルエラーが出た。 error: ‘make_unique’ is not a member of ‘std’使っているGCCのバージョンは「4.8.4」サイトを確認すると、 GCC 4.9 Release Series — Changes, New Features, and Fixes - GNU P…

音声認識メモ(Kaldi)その10(入力層 Karel's DNN)

入力層の構成を掘り下げてみる。特徴量(MFCC)に対して変換を実行したもので、仮にMFCCが13次元、198フレームだとすると、変換後は143次元、198フレームになる(spliceは「5」を想定、詳細は前回を参照)。 splice5.proto <Splice> <InputDim> 13 <OutputDim> 143 <BuildVector> -5:5 </BuildVector>続けて、spliceし</outputdim></inputdim></splice>…

音声認識メモ(Kaldi)その9(pre-training Karel's DNN)

事前学習の流れを追ってみる。インプットとなる音声は連続値であるから、GB(Gaussian-Bernoulli)型の制限付きボルツマンマシン(RBM)を使う。 可視層(visible):Gaussian、連続値をとる 隠れ層(hidden):Bernoulli、離散値をとる nnet(Karel's DNN)では、…

音声認識メモ(Kaldi)その8(training Karel's DNN)

DNNモデルの学習過程をトレースしてみる。学習には「nnetbin/nnet-train-frmshuff」コマンドを使う。 nnetbin/nnet-train-frmshuff \ --minibatch-size=128 \ --randomize=false \ scp:train/feats.scp \ <--inputとなる特徴量 ark:mosimosi_ali2post.ark \ …