著者
北条 伸克 井島 勇祐 杉山 弘晃 宮崎 昇 川西 隆仁 柏野 邦夫
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.2, pp.A-J81_1-17, 2020-03-01 (Released:2020-03-01)
参考文献数
46

This paper aims at improving naturalness of synthesized speech generated by a text-to-speech (TTS) systemwithin a spoken dialogue system with respect to “how natural the system’s intention is perceived via the synthesizedspeech”. We call this measure “illocutionary act naturalness” in this paper. To achieve this aim, we propose toutilize dialogue-act (DA) information as an auxiliary feature for a deep neural network (DNN)-based speech synthesissystem. First, we construct a speech database with DA tags. Second, we build the proposed DNN-based speechsynthesis system based on the database. Then, we evaluate the proposed method by comparing its performance withtwo conventional hidden Markov model (HMM)-based speech synthesis systems, namely, the style-mixed modelingmethod and the style adaptation method. The objective evaluation results show that the proposed method overwhelmsthe style-mixed modeling method in the accuracy of reproduction of global prosodic characteristics of dialogue-acts.They also reveal that the proposed method overwhelms the style adaptation method in the accuracy of reproduction of sentence final tone characteristics of dialogue-acts. The subjective evaluation results also show that the proposed method improves the illocutionary act naturalness compared with the two conventional methods.
著者
金子 卓弘 亀岡 弘和 北条 伸克 井島 勇祐 平松 薫 柏野 邦夫
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.20, pp.1-6, 2016-12-13

統計的パラメトリック音声合成は,その柔軟性と省メモリ性などの利点により広く使われている. しかし,この手法で生成した音声パラメータは,学習の際の統計的平均化によって過剰な平滑化が生じ,合成した音声は肉声感が失われる傾向がある. この問題に対し,本稿では,敵対的学習を用いて取得したポストフイルタを用いることにより,失われた肉声感を再構成する手法を提案する.従来研究でも,系列内変動や変調スペクトルに着目して肉声感を取り戻そうという試みはあるが,これらは経験的発見に基づくものであり,合成音声と自然音声の差異の一部に対処しているに過ぎない. これに対して,提案手法は敵対的学習を用いながら,合成音声と自然音声とのギャップを埋めるようなポストフイルタをデータから直接学習しようとするものである. これにより,合成音声の音声特徴量を真の音声の音声特徴量の分布に近づくように変換するポストフイルタを得ることができる.実験では,提案手法を用いることにより,合成音声から分析合成音声に匹敵する音声が得られることを示す.