著者
金子 卓弘 亀岡 弘和 北条 伸克 井島 勇祐 平松 薫 柏野 邦夫
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.20, pp.1-6, 2016-12-13

統計的パラメトリック音声合成は,その柔軟性と省メモリ性などの利点により広く使われている. しかし,この手法で生成した音声パラメータは,学習の際の統計的平均化によって過剰な平滑化が生じ,合成した音声は肉声感が失われる傾向がある. この問題に対し,本稿では,敵対的学習を用いて取得したポストフイルタを用いることにより,失われた肉声感を再構成する手法を提案する.従来研究でも,系列内変動や変調スペクトルに着目して肉声感を取り戻そうという試みはあるが,これらは経験的発見に基づくものであり,合成音声と自然音声の差異の一部に対処しているに過ぎない. これに対して,提案手法は敵対的学習を用いながら,合成音声と自然音声とのギャップを埋めるようなポストフイルタをデータから直接学習しようとするものである. これにより,合成音声の音声特徴量を真の音声の音声特徴量の分布に近づくように変換するポストフイルタを得ることができる.実験では,提案手法を用いることにより,合成音声から分析合成音声に匹敵する音声が得られることを示す.
著者
鈴木 潤 永田 昌明
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-106, no.16, pp.1-9, 2015-05-18

SkipGram, GloVe といった対数双線形言語モデルに属する単語分散表現のモデルは,これまで確率的勾配法 (SGD) やその拡張である AdaGrad といった勾配に基づくオンライン学習アルゴリズムを用いてパラメタ推定を行ってきた.しかし,対数双線形言語モデルと勾配に基づくパラメタ推定法の組み合わせは,解の収束性や再現性といった観点で,必ずしも適切な選択とは言えない.本稿では,より信頼性の高い単語分散表現を獲得する枠組みを構築することを目的として,対数双線形言語モデルが持つ性質に対応したパラメタ推定法を提案する.
著者
チョウ イ 峯松 信明 齋藤 大輔
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.19, pp.1-6, 2015-11-25

論文では,データが限られた話者に対する音声合成の質の向上を目的とした,多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成モデルを提案する.提案モデルは,話者非依存のネットワーク (SIN) と話者依存のネットワーク (SDN) で構成されており,SIN は複数話者のデータで学習され,SDN はターゲット話者のデータで学習される.さらに,性別コードと話者コード,i-vector を導入することで,SIN 内部において,話者の識別性をより高めることが期待される.データ数が限られたデータベースを用いた音声合成実験により,提案法は,多層ニューラルネットワークと多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成と比較して,合成音声の品質の向上を確認することができた.さらに,提案した複数話者モデルに話者適応を導入可能であり,実験的に新話者に対する音声合成の自然性と話者性を向上することができた.