ichou1のブログ

主に音声認識、時々、データ分析のことを書く

2020-08-01から1ヶ月間の記事一覧

音声合成メモ(World)その1

音声合成「World」を試してみる。下記で公開されているATR音素バランス503文の発話データと、 https://ja.osdn.net/projects/galateatalk/releases/22207パラレルデータとして下記の"綾波音声"データを使用させていただいた。 Scyclone Demo Page データ1 ち…

音声認識メモ(DeepSpeech)その7

特徴量変換の際に、「MinMax正規化」を使ってみる。特徴量変換 波形データ 左から下記のとおり。 「ジェット機」 「どろぼうでもはいったかと、いっしゅんぼくはおもった」 「さっぽろ」 波形データ(MinMax正規化) data = librosa.util.normalize(original…

音声認識メモ(DeepSpeech)その6

前回の続き。プリエンファシスは必要か?「ジェット機」という音声のスペクトログラム。 左が「pre-emphasis なし」、右が「pre-emphasis あり」 トレーニング時の学習セット(ATR503) 他コーパス(その1) 最初の「ジェット機」に関しては、プリエンファシ…

音声認識メモ(DeepSpeech)その5

モデルのインプットとして使う特徴量を「MFCC」から「log-mel spectrum」へ変えてみる。インプットとして使う特徴量を変えてみる各Time-Stepごとの次元は、「26」次元(MFCC13次元にdelta特徴量を加えた分)から「128」次元(フィルタバンクチャネル数)に置…