ichou1のブログ

主に音声認識、時々、データ分析のことを書く

DeepSpeech

音声認識メモ(DeepSpeech)その7

特徴量変換の際に、「MinMax正規化」を使ってみる。特徴量変換 波形データ 左から下記のとおり。 「ジェット機」 「どろぼうでもはいったかと、いっしゅんぼくはおもった」 「さっぽろ」 波形データ(MinMax正規化) data = librosa.util.normalize(original…

音声認識メモ(DeepSpeech)その6

前回の続き。プリエンファシスは必要か?「ジェット機」という音声のスペクトログラム。 左が「pre-emphasis なし」、右が「pre-emphasis あり」 トレーニング時の学習セット(ATR503) 他コーパス(その1) 最初の「ジェット機」に関しては、プリエンファシ…

音声認識メモ(DeepSpeech)その5

モデルのインプットとして使う特徴量を「MFCC」から「log-mel spectrum」へ変えてみる。インプットとして使う特徴量を変えてみる各Time-Stepごとの次元は、「26」次元(MFCC13次元にdelta特徴量を加えた分)から「128」次元(フィルタバンクチャネル数)に置…

音声認識メモ(DeepSpeech)その4

前回の続き。 それなりの認識精度が出ることを確認した。ここから、認識精度を高めること、汎化させることを考えてみる。 他コーパスの音声ファイル認識まずは、別の音声コーパスを試してみる。「東北大‐松下 単語音声データベース (TMW)」の単語音声「さっ…

TensorFlowメモ(clipped_relu)

Tensor演算に関するメモ。前回見たDeepSpeechのモデルでは、Denseレイヤの活性化関数で「clipped_relu」を指定した。 x = TimeDistributed(Dense(units=fc_size, kernel_initializer=init, bias_initializer=init, activation=clipped_relu), name='dense_1'…

音声認識メモ(DeepSpeech)その3

トレーニングによるパラメータ更新を試してみる。トレーニングデータは、下記で公開されているATR音素バランス503文の発話データを使うことにする。 https://ja.osdn.net/projects/galateatalk/releases/22207日本語コーパスを使った音素認識については下記…

音声認識メモ(DeepSpeech)その2

モデルの構造DeepSpeechの「create_model」関数を追ってみると、modelの構造としては「6層」 Layer1: Dense ( + clipped RELU activation + dropout ) Layer2: Dense ( + clipped RELU activation + dropout ) Layer3: Dense ( + clipped RELU activation + …

音声認識メモ(DeepSpeech)その1

Mozillaが公開する「DeepSpeech」を試してみる。 github.com環境準備(インストール) % pip install deepspeech% pip show deepspeech Name: deepspeech Version: 0.7.0 Summary: A library for running inference on a DeepSpeech model Home-page: https:…