著者
北条 伸克 井島 勇祐 杉山 弘晃 宮崎 昇 川西 隆仁 柏野 邦夫
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.2, pp.A-J81_1-17, 2020-03-01 (Released:2020-03-01)
参考文献数
46

This paper aims at improving naturalness of synthesized speech generated by a text-to-speech (TTS) systemwithin a spoken dialogue system with respect to “how natural the system’s intention is perceived via the synthesizedspeech”. We call this measure “illocutionary act naturalness” in this paper. To achieve this aim, we propose toutilize dialogue-act (DA) information as an auxiliary feature for a deep neural network (DNN)-based speech synthesissystem. First, we construct a speech database with DA tags. Second, we build the proposed DNN-based speechsynthesis system based on the database. Then, we evaluate the proposed method by comparing its performance withtwo conventional hidden Markov model (HMM)-based speech synthesis systems, namely, the style-mixed modelingmethod and the style adaptation method. The objective evaluation results show that the proposed method overwhelmsthe style-mixed modeling method in the accuracy of reproduction of global prosodic characteristics of dialogue-acts.They also reveal that the proposed method overwhelms the style adaptation method in the accuracy of reproduction of sentence final tone characteristics of dialogue-acts. The subjective evaluation results also show that the proposed method improves the illocutionary act naturalness compared with the two conventional methods.
著者
益子 貴史 徳田 恵一 宮崎 昇 小林 隆夫
出版者
Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌. D-2, 情報・システム. 2, パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.J83-D2, no.7, pp.1600-1609, 2000-07-20

隠れマルコフモデル(HMM)に基づいてピッチパターンとスペクトル系列を同時にモデル化及び生成する手法について述べる.ピッチパターンは,連続値をとる有声区間と値をもたない無声区間の時系列として表現されるため,通常のHMMではモデル化することができない.そこで本論文では,多空間上の確率分布に基づくHMM(multi-space probability distribution HMM: MSD-HMM)を適用し,ピッチパラメータとスペクトルパラメータを結合した特徴パラメータを用いてピッチとスペクトルを統一的にモデル化する手法を提案する.また,MSD-HMMにおける決定木に基づくコンテクストクラスタリング手法を導出し,ピッチやスペクトルの変動要因を考慮したモデルの構築手法について述べる.更に,ゆう度最大化基準に基づくパラメータ生成手法を用いることにより,実音声を近似したピッチパターン及びスペクトル系列を生成できることを示す.
著者
徳田 恵一 益子 貴史 宮崎 昇 小林 隆夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.7, pp.1579-1589, 2000-07-25
被引用文献数
65

HMM(hidden Markov model)による時系列の統計的モデル化手法は, 特に音声認識における音声スペクトル列の統計的モデル化手法として広く成功を収めている.HMMは, 離散的なシンボル列を扱う離散分布HMMと、連続値をもったベクトル列を扱う連続分布HMMとに大別されるが, 実際の観測系列には, 離散的なシンボルと連続値が時間的に混在したものがあり, 従来のHMMでこのような観測系列をそのまま取り扱うことはできない.音声のピッチパターンは, このような系列の例である.この問題を解決するため, 本論文では, 可変次元の多空間上における確率分布に基づいたHMMを新たに定義し, 拡張されたHMMのモデルパラメータの再推定アルゴリズムを与えている.拡張されたHMMは, 離散分布HMM, 混合連続分布HMMを特別な場合として含み, 更に離散シンボルと連続値が時間的に混合した観測系列をモデル化することができる.