ichou1のブログ

主に音声認識、時々、データ分析のことを書く

音声合成メモ(World)その1

音声合成「World」を試してみる。

下記で公開されているATR音素バランス503文の発話データと、
https://ja.osdn.net/projects/galateatalk/releases/22207

パラレルデータとして下記の"綾波音声"データを使用させていただいた。
Scyclone Demo Page

データ1

ちいさなうなぎやに、ねっきのようなものがみなぎる。

左側がGalateaTalk音声データ、右側が綾波音声データ。

f:id:ichou1:20200830082508p:plainf:id:ichou1:20200830082517p:plain

「World」を使った基本周波数の抽出。

f:id:ichou1:20200830083047p:plainf:id:ichou1:20200830083055p:plain

データ2

ひょうげんするのうりょくをみにつけることである。

f:id:ichou1:20200830085825p:plainf:id:ichou1:20200830085812p:plain

f:id:ichou1:20200830090130p:plainf:id:ichou1:20200830090138p:plain


まずは、基本周波数の変換だけで試してみる。

GalateaTalkデータの対数基本周波数に関する平均と分散を計算。

平均: 4.759163479676581 ( 116.64830639534101 [Hz] )
分散: 0.1984692325760092


綾波音声データの対数基本周波数に関する平均と分散を計算。
(2つの音声データだけで計算)

平均: 5.492186212498033 ( 242.78741195064816 [Hz] )
分散: 0.13437581378553115

基本周波数の変換については、下記サイトを参考にさせていただいた。
美少女声への変換と合成. Introduction | by Lento | Medium

変換結果(右側は目標となる綾波音声)

f:id:ichou1:20200830093639p:plainf:id:ichou1:20200830083055p:plain

元データ

基本周波数のみ変換して音声合成

基本周波数の変換+フォルマントSHIFT(1.2)