著者
関井 祐介
出版者
電気通信大学
巻号頁・発行日
2017-03-24

声質変換は,入力音声を目的話者の声質に変換する技術である.声質変換手法として,従来はGaussian Mixture Model(GMM)を用いた手法がよく用いられていたが,近年のDeep Learning に関する技術の台頭により,Deep Neural Network(DNN)を用いた声質手法が注目されている.しかし,GMM やDNN を用いた手法の多くは一対一の声質変換手法を提案しており,任意話者の入力に対応した研究は少なく,従来の任意話者の声質変換手法は,一対一声質変換と比べ変換精度が劣ってしまうという問題がある.また,従来のDNN を用いた声質変換手法では,一対一変換および多対一変換において複雑なネットワークを用いるため,多くの訓練データが必要となり,かつ変換に要する時間が長くなるという問題がある. 本研究では,これらの問題を解決するため,オートエンコーダおよびスパースオートエンコーダを用いた声質変換手法を提案する.提案手法では,オートエンコーダで次元圧縮した高次特徴量を目的話者の高次特徴量へDNN で変換し,目的話者のオートエンコーダを用いて音響特徴量に復元する.評価実験では,提案手法と従来手法を比較し,オートエンコーダを用いた手法は従来手法よりも若干高い精度でスペクトル変換を行い,変換時間を短縮することができた.スパースオートエンコーダを用いた手法では,オートエンコーダを用いた提案手法と比べ,スペクトル変換精度の向上および変換した音声の自然性を改善し,任意話者の声質変換精度を向上させることができた.