著者
真坂 健太 相原 龍 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.17, pp.1-6, 2014-12-08

声質変換は,入力した音声を音韻情報などは保ったまま,話者性のような特定の情報のみを変換する技術であり,話者変換や感情変換,発話支援など様々なタスクへの応用が期待されている.従来の代表的な手法である GMM を用いた統計的なアプローチ等は,あくまでクリーン音声を用いた評価を行っており,雑音環境下を考慮した定式化はされていない本研究では,雑音環境下での声質変換など,これまでになかったタスクに対応可能な非負値行列因子分解 (Non-negative Matrix Factorization:NMF) による声質変換を扱う.我々はこれまで,この NMF に基づいた,音声だけではなく唇画像情報を用いたマルチモーダルな声質変換手法を提案してきた.入力話者の特徴量として,音声と画像情報を用いることで変換精度,及びノイズロバスト性の向上を目指した.本論文では,さらに特徴量重みを導入し,新たにコスト関数を提案した.実験結果より,音声情報のみを用いた NMF による声質変換,及び GMM による声質変換よりも提案手法が精度の良い変換が行える事を示す.Voice conversion is a technique for converting specific information in speech while maintaining the other information, such as linguistic information. This technique has been applied to various tasks, for example, there are speaker conversion, emotion conversion and speaking assistance, etc. The GMM-based method is conventional VC method and widely used. In noisy environments, the GMM-based method cannot convert the speech well, because this method cannot model the noisy signal well. Therefore, we have been researched about a noise-robust VC method using Non Negative Matrix Factorization (NMF). In this paper, we propose a multimodal VC method that improves the noise robustness of our previous exemplar-based VC method. Furthermore, we introduce the combination weight between audio and visual features and formulate a new cost function in order to estimate the audio-visual exemplars. By using the joint audio-visual features as source features, the VC performance is improved compared to a previous audio-input exemplar-based VC method. The effectiveness of this method was confirmed by comparing it with that of the conventional audio input NMF-based method and the conventional GMM-based method.