- 著者
-
鈴木 大志
鷹合 大輔
中沢 実
- 雑誌
- 研究報告マルチメディア通信と分散処理(DPS) (ISSN:21888906)
- 巻号頁・発行日
- vol.2021-DPS-189, no.5, pp.1-6, 2021-12-13
声質変換とは,人物の声の声質のみを別人の声質に変換する技術である.その中でも,ゼロショット声質変換は,変換モデルの学習した音声にない声質間での変換が可能な手法である.AutoVC は,ゼロショット声質変換モデルで,入力話者の声のメルスペクトログラムと入出力話者の話者埋め込みベクトルを入力する事で,話者らの声を学習しているか否か関わらず,出力話者の声質のメルスペクトログラムを出力する.これを,音声波形に復元する際に,音既存手法では WaveNet や Griffin-Lim などの多くの計算時間を要する手法を用いておりリアルタイムな声質変換の弊害となっている.そこで,本研究ではメルスペクトログラムに代えて,スペクトル包絡を用いた.そして,波形の復元は WORLD を用いる事でリアルタイムな声質変換を実現した.