著者
中村 敬介 西村 竜一 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.632, pp.13-18, 2004-01-22
被引用文献数
9 1

実環境における音声インタフェースでは笑い声や咳などのユーザが意図しない入力や周囲の雑音による誤入力,あるいは笑い声などの通常の発話と区別すべき入力が多く存在する.本研究では,音声/雑音,および通常発話/不要音を識別する頑健な音声対話システムを目指し,そのためのGaussian Mixture Model(GMM)を用いた環境雑音および不要発話の識別法およびその効果について報告する.生駒市北コミュニティセンターの公共音声情報案内システム「たけまるくん」におけるフィールドテストで収集したユーザ発話を複数のクラスに分類し,それぞれの音響的特徴をGMMに学習させて音声識別実験を行ったところ,各クラスごとでの識別率は128混合GMMで平均80.6%,音声/非音声の識別率は96.3%を達成し,GMMによる識別が可能であることが確認できた.音声/非音声の識別においても,2クラスのGMMよりも雑音の種別ごとにGMMを用いるほうが高い識別性能を示した.また,Cepstral Mean Subtraction(CMS)を行わないことで,クラスごとの識別性能を平均3.2%向上できることを確認した.