- 著者
-
宮本 春奈
塩田 さやか
貴家 仁志
- 雑誌
- 研究報告音楽情報科学(MUS) (ISSN:21888752)
- 巻号頁・発行日
- vol.2019-MUS-123, no.28, pp.1-5, 2019-06-15
本論文では,x-vector に基づく話者照合システムにおいて帯域拡張法を用いて生成した広帯域音声によるデータ拡張に着目する.x-vector に基づく話者照合システムにおけるデータ拡張には,様々なノイズを加えるだけでなく,狭帯域音声をアップサンプリングしたデータ,またアップサンプリングしたデータと帯域拡張データとを混ぜ合わせて学習に用いるものがこれまでに報告されており,さらに DNN による帯域拡張を用いたデータ拡張についても報告されている.一方近年,帯域拡張法の一つとして非線形帯域拡張法 (N-BWE) が提案されている.N-BWE はモデル学習を行わず,計算量が非常に軽い手法として提案された.N-BWE は単純な非線形関数とフィルタのみで構成されているにも関わらず,話者照合の等価エラー率 (EER) と二乗平均平方根対数スペクトル歪みそれぞれにおいて高い性能を得られることが報告されている.そこで本論文では,x-vector に基づく話者照合システムを構築する際に,N-BWE を適用した音声を拡張データとして使用して実験を行った.実験結果より,アップサンプリングした音声と N-BWE で帯域拡張した音声を拡張データとして加えて学習を行った結果,アップサンプリングした音声のみを拡張データとして用いたシステムと比較して EER のエラー改善率は 24.5% を達成した.