著者
宇藤陽介 南角 吉彦 季晃伸 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.103-108, 2007-12-20

声質変換とは,ある話者が発した音声を別の話者が発したかのような音声に変換する技術であり,任意の音声を合成する音声合成システムよりも少量の学習データで実現可能である.従来の声質変換ではスペクトルをガウス混合モデル (Gaussian Mixture Model; GMM) でモデル化し,非線形に変換する手法が広く用いられる.しかし,F0 の変換に関してはスペクトルとは独立に線形変換が用いられることが多かった.これは,F0 が有声区間のみで定義されており,無声区間では値を持たず,系列全体を通常の連続分布や離散分布でモデル化することが容易ではないためである.本報告では,多空間上の確率分布 (Multi-Space Probability Distribution; MSD) に基づく GMM (MSD-GMM) を用いたスペクトルと F0 の同時変換手法を提案する.提案法では,F0 の非線形変換が可能になるだけでなく,有声から無声や無声から有声への変換も可能となる.さらに本研究では,F0 の時間方向の変動をモデル化するために MSD-HMM への拡張を検討する.