2020-10-01から1ヶ月間の記事一覧
トレーニング時におけるmodelの内部処理を見てみる。 Embedding/Encoderレイヤ Embeddingレイヤに渡す前に、テキスト文字はidに置き換えられる。idはゼロ始まりの148個。 ARPAbetの発音記号も含まれる。 {'_': 0, '-': 1, '!': 2, "'": 3, '(': 4, ')': 5, '…
内部処理を見てみる。今回は、音声ファイルから特徴量(log-mel spectrogram)を求めるところまで。ソースでは、「mel_spectrogram」関数が該当する。 https://github.com/NVIDIA/tacotron2/blob/master/layers.py#L63 def mel_spectrogram(self, y): """Com…
(随時、更新します) 「スペクトラム」と「スペクトログラム」の違い 時間領域で標本化されたデータはチャンクに分けられ(チャンクは一般にオーバーラップさせる)、チャンク毎にフーリエ変換を施す。 各チャンクの変換結果が、ある時間における全周波数成…