著者
米山 怜於 呉 宜樵 戸田 智基
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.13, pp.1-6, 2021-02-24

本稿では,ソースフィルタ理論に基づくニューラルボコーダを単一のネットワークにより実現する手法を提案する.深層学習に基づく音声波形生成モデリングを実現するニューラルボコーダは,高品質な音声波形を生成で きる一方で,完全データ駆動型の枠組みであるがゆえに,従来型ボコーダの利点の一つであった操作機能が低下する 傾向にある.そのため,従来型ボコーダと同様に音源生成部と声道フィルタ部に分割し,どちらか一方に対してパラ メトリックなモデルを導入する枠組みが盛んに研究されている.従来型ボコーダにおける近似を一部導入することで, 操作性を高めることが可能となるが,完全データ駆動型の枠組みと比較すると,音質が若干劣化する傾向にあり,ま た,操作機能についても未だ改善の余地がある.この問題に対し,本稿では,より近似の少ない枠組みとして,単一 のニューラルネットワークに対してソースフィルタ理論の仕組みを導入した「統合型ソースフィルタネットワーク」を提案する.音源生成部と声道フィルタ部の両方をニューラルネットワークでモデル化して接続することで,統一的 な訓練指標でネットワーク全体を最適化することを可能とするとともに,音源生成部のネットワーク出力に対する制 約を導入することで,音源生成機能を備えたネットワークの学習を試みる.実験的評価の結果から,提案法は従来法であるニューラル・ソースフィルタと比較して,F0 変換精度を有意に改善できることを確認した.