著者
チョウ イ 峯松 信明 齋藤 大輔
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.19, pp.1-6, 2015-11-25

論文では,データが限られた話者に対する音声合成の質の向上を目的とした,多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成モデルを提案する.提案モデルは,話者非依存のネットワーク (SIN) と話者依存のネットワーク (SDN) で構成されており,SIN は複数話者のデータで学習され,SDN はターゲット話者のデータで学習される.さらに,性別コードと話者コード,i-vector を導入することで,SIN 内部において,話者の識別性をより高めることが期待される.データ数が限られたデータベースを用いた音声合成実験により,提案法は,多層ニューラルネットワークと多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成と比較して,合成音声の品質の向上を確認することができた.さらに,提案した複数話者モデルに話者適応を導入可能であり,実験的に新話者に対する音声合成の自然性と話者性を向上することができた.