著者
松永 悟行 大谷 大和 平原 達也
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J102-D, no.10, pp.721-729, 2019-10-01

Deep Neural Network(DNN)を用いた音声合成の基本的な構成は,文章を構成する情報を数値で表現した言語特徴量を入力して音声を合成するための特徴量を出力するものである.これらの入出力特徴量は,DNNに適するように学習データを用いて正規化や標準化することが多い.しかし,自由文章から音声を合成する場合には,この正規化の範囲や標準化の分布から外れる値が言語特徴量に含まれる可能性がある.そして,この外れ値はDNNの外挿能力が十分でないために適切に補間されないまま伝搬して出力特徴量に誤差を生じさせる.本論文では,言語特徴量の外れ値の問題を解決するために,一発話内の閉じた条件における正規化手法を提案し,日本語の音声合成で重要な要素の一つである基本周波数について,予測誤差と合成音声の聴取による評価を行った.その結果,提案した正規化手法では,従来の正規化手法で発生していた外れ値は発生しないこと,正規化した値が基本周波数に適したものになったことにより少量の学習データでも予測誤差は従来よりも小さくなり,安定した予測が可能になることがわかった.

言及状況

外部データベース (DOI)

Twitter (2 users, 2 posts, 3 favorites)

深層学習を用いた日本語音声合成における基本周波数に適した言語特徴量の正規化手法 https://t.co/OoEYI5RMaa

収集済み URL リスト