著者
能勢 隆
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J100-D, no.4, pp.556-569, 2017-04-01

HMM音声合成に代表される統計モデルに基づくテキスト音声合成は,モデルがコンパクトであるにもかかわらず,従来の波形接続方式に比べて少ない音声データで音声に含まれる話者性や感情表現・発話様式(スタイル)を合成音声に反映することができる手法として急速に利用が広まっている.本論文では,HMM音声合成を中心とし,話者やスタイル,声質を多様化する手法についてそのアイデアや実験結果なども含めて解説を行う.HMM音声合成ではスペクトルや韻律特徴量がモデル内の各状態の分布パラメータとして表現されるため,モデルパラメータの操作,モデルの拡張が容易であり,様々な多様化手法が提案されている.代表的な話者の多様化手法として話者適応,話者補間,話者強調について,またスタイルの多様化手法としてスタイルモデリング,スタイル適応,スタイル補間,スタイル制御,スタイル変換について基本的な枠組を説明する.更に声質の制御法や話し言葉音声についても概説し,今後の課題や展望について述べる.

言及状況

Twitter (15 users, 17 posts, 36 favorites)

合成音声の多様化についてまとめた解説論文「統計モデルに基づく多様な音声の合成技術」が先月の信学会和文DLランキングに入っていました。https://t.co/wHHPaiwsgs HMMが中心ですがDNN他でも参考になるかと思います。入門的内容で無償で見れますので興味のある方はどうぞ。https://t.co/jCFUVV2XSp
Nose先生の解説論文 / 統計モデルに基づく多様な音声の合成技術 https://t.co/JV9tPm6pwE
1 1 https://t.co/Qs9K0RAU1K
統計モデルに基づく多様な音声の合成技術 https://t.co/Y071CLfjOq

収集済み URL リスト