音声合成メモ（AutoVC）

PyTorch 音声合成

「AutoVC」を試してみる。 GitHub - auspicious3000/autovc: AutoVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss AUTOVC is a many-to-many non-parallel voice conversion framework. モチベーション「SpeechSplit」を試してみようとして…

2021-04-18

MakeItTalkその1

PyTorch 音声合成

「MakeItTalk」を試してみる。音声ファイルに合わせて、口パク動画を生成してくれるもので、インプットとなる音声ファイルも画像も「１つだけ」でよいのがすごい。github.com実際に生成された口パク動画のデモ。多少、画像の精度が落ちているようだが、音…

2020-10-11

音声合成メモ（tacotron2その4）

音声合成 tacotron2

トレーニング時におけるmodelの内部処理を見てみる。 Embedding/Encoderレイヤ Embeddingレイヤに渡す前に、テキスト文字はidに置き換えられる。idはゼロ始まりの148個。 ARPAbetの発音記号も含まれる。 {'_': 0, '-': 1, '!': 2, "'": 3, '(': 4, ')': 5, '…

2020-10-05

音声合成メモ（tacotron2その3）

音声合成 tacotron2 python

内部処理を見てみる。今回は、音声ファイルから特徴量（log-mel spectrogram）を求めるところまで。ソースでは、「mel_spectrogram」関数が該当する。 https://github.com/NVIDIA/tacotron2/blob/master/layers.py#L63 def mel_spectrogram(self, y): """Com…

2020-10-03

音声認識や音声合成に出てくる用語のまとめ

音声合成音声認識

（随時、更新します）「スペクトラム」と「スペクトログラム」の違い時間領域で標本化されたデータはチャンクに分けられ（チャンクは一般にオーバーラップさせる）、チャンク毎にフーリエ変換を施す。各チャンクの変換結果が、ある時間における全周波数成…

2020-09-20

音声合成メモ（tacotron2その2）

PyTorch 音声合成 tacotron2

内部でどのような処理を行っているのか見てみる。論文より（Encoder／Decoderの枠線を加筆）「torchsummaryX」を使って、モデルのサマリを出力してみる。各レイヤ構成 Embedding (embedding): Embedding(148, 512) Encoder 「BatchNorm1d」レイヤに関して…

2020-09-19

音声合成メモ（tacotron2その1）

音声合成 python tacotron2

NVIDIAのtacotron2を試してみる。GitHub - NVIDIA/tacotron2: Tacotron 2 - PyTorch implementation with faster-than-realtime inferenceまずは、Pre-trainedモデルを使ってinference（推論）「ちいさなうなぎやに」という音声を生成してみる。 text = 'che…

2020-08-30

音声合成メモ（World）その1

音声合成 World

音声合成「World」を試してみる。下記で公開されているATR音素バランス503文の発話データと、 https://ja.osdn.net/projects/galateatalk/releases/22207パラレルデータとして下記の"綾波音声"データを使用させていただいた。 Scyclone Demo Page データ1 ち…

ichou1のブログ

主に音声認識、時々、データ分析のことを書く

音声合成