著者
丸目 雅浩 南角 吉彦 酒向慎司 徳田 恵一 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.247-252, 2007-12-21

音声合成の需要の高まりにより,多様な話者性や発話スタイルを持った音声の合成が望まれている.しかし,このような音声の合成には,話者や発話スタイルに応じてモデルを用意する必要があり現実的ではない.そこで,少量の学習データにより,多様な話者性を持つ音声の合成を可能とする混合ガウスモデル(GMM)に基づく声質変換が提案されている.しかし,従来の GMM に基づく声質変換では,尤度最大化(ML)基準によりモデルパラメータを点推定しているため,学習データが十分に得られない場合,モデルの推定精度が低下する可能性がある.そこで,GMM に基づく声質変換に変分ベイズ法を適用し,ベイズ基準による声質変換を行う.提案法では,ML 基準に比べて,声質変換の音質と話者性において,品質向上が確認でき,推定精度の高いモデルが得られることがわかった.It is desired a technique for synthesizing speech with various speaker characteristics and speaking styles, by increasing the demand of speech synthesis. However, a large amount of training data is required to construct the system for each characteristics and speaking styleVoice conversion based on Gaussian Mixture Model (GMM) is one of techniques which can solve this problem. GMM is estimated from a small amount of training data based on the Maximam Likelihood (ML) criterion. However, the GMM based voice conversion technique still suffers from the overfitting problem due to insufficient training data and a point estimation of the ML criterion. To improve this problem, we applied the varational Bayes method to the GMM based voice conversion. In experiments, it was confirmed that the proposed technique improves the quality of converted voice, because of its higher generalization ability than the conventional ML based approach.