著者
藤田 洋子 竹内 翔大 川波 弘道 松井 知子 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.3, pp.1-6, 2010-02-05

実環境で,音声認識を用いた音声情報案内システムを稼動させる場合には,雑音などの音声以外の入力やユーザ同士の背景会話などが混入されてくることがある.これらの入力はシステムの誤作動・誤認識を引き起こし,システムの応答性能を低下させる原因となる.そのため,システムへの入力として適当な入力 (有効入力) と不適当な入力 (無効入力) の識別を行い,無効入力を棄却することにより,無効入力に対する応答処理を行わないことが重要となる.一般的に有効入力と無効入力を識別には音響的特徴が用いられる.しかし,入力音の音声認識結果から得られる言語的な情報を使うことにより,無意味な認識結果が出力される雑音の識別に加え,システムのタスクの言語的な特徴を反映させた有効入力,無効入力を識別することが可能になると考えられる.そこで本稿では,Bag-of-Words (BOW) を特徴量とした Support Vector Machine (SVM) による無効入力の識別を検討した.実環境音声認識システム 「たけまるくん」 の入力データを用いた実験では,GMM に基づく無効入力の識別と比べ,分類誤り率を 23.30% から 15.90% に削減することができた.また,BOW に GMM から得られる音響尤度,発話時間や SNR を組み合わせた手法についても検討した.その結果,分類誤り率を 13.60% まで削減することができた.On a real environment speech-oriented information guidance system, a valid and invalid input discrimination process is important as invalid inputs such as noise, laugh, cough and meaningless utterances lead to unpredictable system responses. Generally, acoustic features such as MFCC are used for discrimination. Comparing acoustic likelihoods of GMMs (Gaussian Mixture Models) from speech data and noise data is one of the typical methods. In addition to that, using linguistic features, such as speech recognition result, is considered to improve discrimination accuracy as it reflects the task-domain of invalid inputs and meaningless recognition results from noise inputs. In this report, the authors propose to introduce Bag-of-Words (BOW) as a feature to discriminate between valid and invalid inputs. Support Vector Machine (SVM) is also employed to realize robust classification. Experiments using real environment data from the guidance system "Takemaru-kun" were conducted. By applying BOW and SVM, the classification error rate (CER) is reduced to 15.90% , from 23.30% when using GMMs. In addition, experiments using features combining BOW with acoustic likelihoods from GMMs, SNR and duration were conducted, improving the CER to 13.6% .