ichou1のブログ

主に音声認識、時々、データ分析のことを書く

2020-08-01から1ヶ月間の記事一覧

音声合成メモ（World）その1

音声合成 World

音声合成「World」を試してみる。下記で公開されているATR音素バランス503文の発話データと、 https://ja.osdn.net/projects/galateatalk/releases/22207パラレルデータとして下記の"綾波音声"データを使用させていただいた。 Scyclone Demo Page データ1 ち…

音声認識メモ（DeepSpeech）その7

DeepSpeech 音声認識

特徴量変換の際に、「MinMax正規化」を使ってみる。特徴量変換波形データ左から下記のとおり。「ジェット機」「どろぼうでもはいったかと、いっしゅんぼくはおもった」「さっぽろ」波形データ（MinMax正規化） data = librosa.util.normalize(original…

音声認識メモ（DeepSpeech）その6

DeepSpeech 音声認識

前回の続き。プリエンファシスは必要か？「ジェット機」という音声のスペクトログラム。左が「pre-emphasis なし」、右が「pre-emphasis あり」トレーニング時の学習セット（ATR503）他コーパス（その1）最初の「ジェット機」に関しては、プリエンファシ…

音声認識メモ（DeepSpeech）その5

音声認識 DeepSpeech

モデルのインプットとして使う特徴量を「MFCC」から「log-mel spectrum」へ変えてみる。インプットとして使う特徴量を変えてみる各Time-Stepごとの次元は、「26」次元（MFCC13次元にdelta特徴量を加えた分）から「128」次元（フィルタバンクチャネル数）に置…