著者
向原 康平 サクリアニ サクティ 吉野 幸一郎 グラム ニュービッグ 中村 哲
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.15, pp.1-6, 2015-11-25

話者感情の揺らぎは音声へ影響を与え,音声認識システムにおいてモデルとのミスマッチを発生させ認識精度を悪化させる.本研究では,DNN ボトルネック特徴量および CNN ボトルネック特徴量を用いることを提案し,感情音声認識精度の改善を図る.ボトルネック構造のニューラルネットワークによって特徴量変換を施したボトルネック特徴量は,入力音声の変動に対して頑健な音響特徴量を抽出できることが示されている.ボトルネック特徴量とは,中間層のユニット数を少なくしたボトルネック構造の多層ニューラルネットワークから抽出する特徴量である.ボトルネック特徴量は特徴量強調が行われ,感情音声のゆらぎに左右されない音素の本質的な成分を抽出されていることが期待されている.本実験では感情音声に対してボトルネック特徴量変換を行い,それぞれの特徴量で GMM-HMM 音響モデルを再学習する.この時のボトルネック音響モデルの感情音声に対する精度向上を確認する.また他の特徴量変換手法と組み合わせることで認識精度の向上を図る.DNN,CNN ボトルネック特徴量を用いた認識精度はそれぞれのベースラインと比較し,認識精度の改善が確認できた.また他の特徴量変換手法の組み合わせにより認識精度の向上を確認できた.