背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の...

13
背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5 柴田研究室

Upload: others

Post on 21-May-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

背景音付き音声のノンパラレルデータ

声質変換

柴田研究室

C0116276

山田尭士

2020/2/5 柴田研究室

Page 2: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

背景と目的深層学習を用いた声質変換

学習用の音声データを集めるのは困難

複数の話者間で対称的なデータが必要

データ収集の容易な手法を使うことに

多くの音声にはノイズ(環境音,背景音等)が含まれている

背景音入りの話者2人の声質の入れ替えを行う

雑音(背景音)の除去

2020/2/5 柴田研究室 1

Page 3: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

提案手法音源分離

手法はDeep U-Netを使用

歌唱分離の手法を背景音除去に応用

声質変換

手法はCycleGAN,CycleGAN-VC2を使用

パラレルデータが要らないためデータ収集が容易

2つの手法を用いて比較

2020/2/5 柴田研究室 2

Page 4: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

CycleGANの概要図

2020/2/5 柴田研究室 3

𝑫𝑨 𝑫𝑩

𝑮𝑩→𝑨𝑮𝑨→𝑩

𝑮𝑩→𝑨𝑮𝑨→𝑩

出来るだけ近づける

出来るだけ近づける

Bかどうかを判定Aかどうかを判定

𝑮 :生成器

𝑫 :識別器A

Page 5: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

実験1. Deep U-NETによる音源分離の効果を検証

2. 声質変換の手法の効果を検証

3. 背景音付き音声に対する提案手法の適用

背景音付き音声を訓練データとし,音源分離後の効果をみる

音声データはWAV形式,16000Hz,16bit,モノラルで統一

2020/2/5 柴田研究室 4

Page 6: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

実験1音源分離の効果を検証

データセット

MedleyDB,MedleyDB 2.0

計196曲のマルチトラックデータセット

歌唱パートを含む音源を使用

DSD100

計100曲のマルチトラックデータセット

全てを訓練データとして使用

2020/2/5 柴田研究室 5

Page 7: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

実験1背景音除去の効果

低周波数帯は除去された

若干残る部分もある

2020/2/5 柴田研究室 6

音源分離前:

音源分離後:

Page 8: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

実験2声質変換の効果と提案手法の適用

データセット

MagnaTagATune

約3万曲の音楽データセット

RWCP-SP99

男女ごと3名によるニュース読み上げ音声データセット

この内,“m1:男性プロナレータ(30代),m2:男性プロアナウンサー(40代)”の音声データ用いる

2020/2/5 柴田研究室 7

Page 9: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

実験2

2020/2/5 柴田研究室 8

声質変換の効果

CycleGAN-VC2は目標音声に近づいている

CycleGANも若干変化している

CycleGAN-VC2:

CycleGAN:

元音声(m1):

目標音声(m2):

Page 10: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

実験3

2020/2/5 柴田研究室 9

CycleGAN-VC2での背景音除去の効果

分離前後で音源の破綻

Vocoderを使った影響だと考える

音源分離前:

音源分離後:

Page 11: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

実験3

2020/2/5 柴田研究室 10

CycleGANでの背景音除去の効果

分離前に比べて背景音の影響が改善されている

背景音無しでの学習に近い結果が得られた

音源分離前:

音源分離後:

元音声(m1):

目標音声(m2):

Page 12: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

結論

音源分離の手法を適用した結果,おおよその背景音の除去ができた

声質変換において,背景音付き音声は背景音除去後のほうが優位な結果

が得られた

音源分離,声質変換ともに実用的な精度とは言えない

データセットの拡張,新しい手法の取り入れなど,精度向上の余地あり

2020/2/5 柴田研究室 11

Page 13: 背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

参考文献[1] 犬飼 辰夫 統計的声質変換における目標話者による同一文発話間のスペクトル特徴量変動に対する分析とその予測

[2] Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion (ICASSP 2019)

2020/2/5 柴田研究室 12