著者
大谷 大和 松永 悟之 平井 啓之
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.39, pp.1-6, 2019-06-15

本稿では深層学習を用いた波形接続型感情音声合成のための感情制御法について述べる.従来の波形接続型感情音声合成では,1) 素片単位での混合が困難であるため,中間的な感情表現が乏しい,2) 入力された感情強度に従い素片の感情の種類を切り替えるため,感情による声質の変化が不連続になるといった問題があった.これらの問題を解決するために,提案手法では深層ニューラルネットワーク (DNN) を用いて,平静音声のスペクトル特徴量と感情強度から感情音声と平静音声の差分スペクトルを予測し,これを平静の素片に畳み込むことで所望の感情強度の感情素片を生成する.また,入力感情強度に応した差分スペクトル特徴量を予測可能にするため,データ拡張により感情強度に対応した差分スペクトル特徴量を生成し,これらを学習に用いることで所望の制御則を DNN に埋め込む.実験的評価では,従来手法と比較して滑らかな感情制御ができていることを確認した.

言及状況

Twitter (11 users, 11 posts, 12 favorites)

@knoike https://t.co/75oIuMMz7L ライブラリー一つだけ用意して、後の感情表現は差分スペクトルで制御する、利点は表現間が細かく制御可能になりましたので、素片でからりと切り替えた印象が低減され、感情表現を丸ごとライブラリー一個分まで用意する必要はなくなる、という検証までやってた。 https://t.co/0yyta7hSiB

収集済み URL リスト