著者
岩田 和彦 小林 哲則
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J106-D, no.1, pp.57-65, 2023-01-01

多様な音声表現が可能な対話音声合成の構築を目的として,複数の異なる音声表現を収集する手法の設計に取り組んだ.従来は,それぞれを適切な表現とすることに注意が向けられ,互いに他の表現とは無関係に表出させた音声が収集されていた.しかし,このような収集方法を採ると,それぞれの表現の隔たりが大きくなり,それらの合成音声を対話の流れの中で発話ごとに使い分けたときに違和感が生じるという問題が起こる.そこで,話し手の心的状態が次々と変化して,収集したい音声表現が満遍なく出現するように進行する対話シナリオを導入した収集手法を設計した.所望の音声表現を対話の流れの中で順に表出させることで,全体としての調和が保たれた表現となることが期待できる.実際に,対話の状況に応じて異なる複数の音声表現を収集し,これらと従来の方法で収集した音声表現とに基づく合成音声を用いたそれぞれの模擬対話の対比較による主観評価を行った.本手法で収集した音声表現の合成音声では,異なる表現を対話の流れの中で使い分けたときの自然性が改善されていることが示され,本手法の有効性が確認された.
著者
高津 弘明 福岡 維新 藤江 真也 岩田 和彦 小林 哲則
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.34, no.2, pp.B-I65_1-15, 2019-03-01 (Released:2019-03-01)
参考文献数
46
被引用文献数
1

We have been developing a speech-based “news-delivery system”, which can transmit news contents via spoken dialogues. In such a system, a speech synthesis sub system that can flexibly adjust the prosodic features in utterances is highly vital: the system should be able to highlight spoken phrases containing noteworthy information in an article; it should also provide properly controlled pauses between utterances to facilitate user’s interactive reactions including questions. To achieve these goals, we have decided to incorporate the position of the utterance in the paragraph and the role of the utterance in the discourse structure into the bundle of features for speech synthesis. These features were found to be crucially important in fulfilling the above-mentioned requirements for the spoken utterances by the thorough investigation into the news-telling speech data uttered by a voice actress. Specifically, these features dictate the importance of information carried by spoken phrases, and hence should be effectively utilized in synthesizing prosodically adequate utterances. Based on these investigations, we devised a deep neural network-based speech synthesis model that takes as input the role and position features. In addition, we designed a neural network model that can estimate an adequate pause length between utterances. Experimental results showed that by adding these features to the input, it becomes more proper speech for information delivery. Furthermore, we confirmed that by inserting pauses properly, it becomes easier for users to ask questions during system utterances.
著者
大町 基 岩田 和彦 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.109, no.355, pp.159-163, 2009-12-14
参考文献数
7

合成音声に,相手との距離に応じた距離感を与えることを試みる.人が,例えば,離れたところにいる相手に話しかけようとして大きな声を出す際には,通常よりも強く息を吐くなどの発声の仕方の変化を伴うと考えられる.このことは音量が大きくなる以外に,声質の変化をももたらすと予想される.そこでまず,人が,相手との距離を意識して発声した音声にどのような特徴が現れるかを調べた.話しかける相手との距離をいくつか設定し,声優がそれぞれの距離感を表現して発声した音声を収録した.これらの音声を分析した結果,距離感が遠くなるにしたがって(1)第1フォルマント周波数の高域へのシフト,(2)スペクトル傾斜の緩和が特徴として見られることがわかった.さらに,これらの特徴の変化を踏まえ,音声の距離感を変換する方法を検討した.
著者
小林 哲則 藤江 真也 小川 哲司 高西 敦夫 松山 洋一 岩田 和彦
出版者
早稲田大学
雑誌
基盤研究(B)
巻号頁・発行日
2008

言語・パラ言語の生成・理解処理を高度化することで,複数の人間と自然なリズムで会話できるコミュニケーションロボットを実現した.また,このロボットを用いて,人同士の会話を活性化することを試みた.この目的のため,ロボットへの性格付与とパラ言語表現機能を考慮したロボットハードウェア,会話状況に沿うロボットの振る舞い,魅力ある会話の進行方式などを設計した.また,ロボットの聴覚機能および発話方式の高度化についても検討した.