- 著者
-
高木 信二
山岸 順一
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 研究報告音声言語情報処理(SLP)
- 巻号頁・発行日
- vol.2015, no.2, pp.1-6, 2015-02-20
近年,Deep Neural Network (DNN) を用いた手法が様々な分野で高い性能を示しており,統計的音声合成においても DNN を用いた手法が注目を集め,盛んに研究されている.従来,統計的音声合成システムでは音声特徴量の 1 つであるスペクトルは,低次元のスペクトルパラメータ (例えば,メルケプストラムや LSP) によって表現され,隠れマルコフモデル (Hidden Markov Model; HMM) や DNN によってモデル化される.本論文では,振幅スペクトルの微細な特徴を捉えるため,DNN の枠組みを用いて振幅スペクトルを直接モデル化することを検討する.本モデル化手法では,スペクトルパラメータ抽出器である Deep Auto-encoder と音響モデルのための DNN を連結し,テキストから得られた言語特徴量から振幅スペクトルを直接合成する巨大な DNN を構築する.分析再合成実験による Deep Auto-encoder を用いて抽出された低次元特徴量の評価,及び,テキスト音声合成実験による提案スペクトルモデリングの評価を行った.