文献一覧: 呉宜樵 (著者)

1 0 0 0 OA 統合型ソースフィルタネットワークによるニューラルボコーダ

著者: 米山怜於呉宜樵戸田智基
雑誌: 研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日: vol.2021-SLP-136, no.13, pp.1-6, 2021-02-24

本稿では,ソースフィルタ理論に基づくニューラルボコーダを単一のネットワークにより実現する手法を提案する.深層学習に基づく音声波形生成モデリングを実現するニューラルボコーダは,高品質な音声波形を生成できる一方で,完全データ駆動型の枠組みであるがゆえに,従来型ボコーダの利点の一つであった操作機能が低下する傾向にある.そのため,従来型ボコーダと同様に音源生成部と声道フィルタ部に分割し,どちらか一方に対してパラメトリックなモデルを導入する枠組みが盛んに研究されている.従来型ボコーダにおける近似を一部導入することで, 操作性を高めることが可能となるが,完全データ駆動型の枠組みと比較すると,音質が若干劣化する傾向にあり,また,操作機能についても未だ改善の余地がある.この問題に対し,本稿では,より近似の少ない枠組みとして,単一のニューラルネットワークに対してソースフィルタ理論の仕組みを導入した「統合型ソースフィルタネットワーク」を提案する.音源生成部と声道フィルタ部の両方をニューラルネットワークでモデル化して接続することで,統一的な訓練指標でネットワーク全体を最適化することを可能とするとともに,音源生成部のネットワーク出力に対する制約を導入することで,音源生成機能を備えたネットワークの学習を試みる.実験的評価の結果から,提案法は従来法であるニューラル・ソースフィルタと比較して,F0 変換精度を有意に改善できることを確認した.

2021-03-03 20:31:36
1 + 7 Twitter

http://id.nii.ac.jp/1001/00209649/