著者
松永 裕太 佐伯 高明 高道 慎之介 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2022-SLP-140, no.31, pp.1-6, 2022-02-22

本論文では,個人性を再現する自発的な音声合成の実現に向けて,言語学的知識に基づいた包括的な実験的調査を行う.近年発展している音声クローニングは流暢な朗読発話に限定され,より人間らしい自発的な音声合成のための新たな音声クローニングの手法が求められている.そこで本論文は,声色の個人性のみならず非流暢性の個人性を再現可能な自発音声合成に取り組む.具体的には,主要な非流暢性であり,心理学や言語学の研究により発話生成やコミュニケーションにおいて重要な役割を果たすことが知られている,フィラーを扱う.本論文では,話者依存と話者非依存のフィラー予測手法を比較評価するため,多話者コーパスで学習した話者非依存のフィラー予測モデルを用いた音声合成手法を提案する.実験的評価により,フィラーの位置と種類の関連,自然性と個人性のトレードオフを明らかにし,人間らしい音声合成の実現への方向性を示す.
著者
倉田 将希 高道 慎之介 佐伯 高明 荒川 陸 齋藤 佑樹 樋口 啓太 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.31, pp.1-6, 2021-02-24

本稿では,音声変換ユーザに目標話者のキャラクタ性を獲得して発話させるためのシステムを提案する.深層学習に基づくリアルタイム音声変換は,人間の発声器官の物理制約を超えて,ユーザの音声から所望のキャタクタ性を持つ音声への高精度な変換を可能にしつつある.しかしながら,音声のパラ言語情報(抑揚・強勢など)の変換は未だ困難であり,ユーザの音声のパラ言語情報が変換音声に直接的に反映されてしまう.また,通常の発話において,人間は自己聴取音の聴取との相互作用により自らの言語情報・パラ言語情報を制御するが,リアルタイム音声変換を用いた発話において,そのような相互作用をもたらす機構は存在しない.そこで本稿では,変換音声をユーザにリアルタイムにフィードバックする自己聴取音制御システムにより,変換音声に所望のキャラクタ性を付与するようユーザを発話変容させるシステムを提案する.実験的評価では,一人称視点(音声変換ユーザ視点)と三人称視点においてシステムおよび変換音声を評価し,(1) 演技経験の少ないユーザに対してシステムの有用性が高いこと,(2) F0 を目標キャラクタに近づけるだけで十分な発話変容効果がみられることを示す.