著者
李晃伸 山田 真士 西村 竜一 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.103, pp.49-54, 2004-10-22
被引用文献数
8

機械に対するユーザの自然な実発話の収集と統計的な分析のために,我々は音声情報案内エージェントシステム「たけまるくん」を公共施設に設置し,2004年5月までの19ヶ月間で約17万発話を収集・整備した.本稿では現在のシステム構成,収集データの分析結果および雑音・不要音棄却実験の結果を報告する.全体のおよそ 30%が雑音などの非音声入力であった.音声入力のうち81%が有効発話であり,残りは背景会話・無意味な発声・不明瞭で聞き取れない発声・発話断片・オーバフローなどの応答不能な無効発話であった.これらの無効発話に対して,入力長とGMMに基づく雑音・不要音棄却の性能を評価した.1か月分8 248個のデータで実験した結果,雑音・息・咳・笑い声などの非音声入力は99%棄却でき,叫び声や遠隔で発声された背景会話もある程度棄却できることが分かった.一方で,発話断片やドメイン外発話については音響的特徴からの弁別は難しかった.In order to collect user's actual utterances to a speech dialogue system on real situation, we have located a speech-oriented information guidance system called ``Tekemaru-kun'' at a public civil hall, and collected 177,789 inputs via 19 months' operation. This paper will report the current system architecture, details of collected data and experimental results of invalid input rejection. As a result, non-voice (noise) inputs occupies about 30% of total input, and 81% of voice inputs are valid inputs. The rests are invalid voice inputs that includes background speech, incomprehensible voice, obscure speech, fragmented speech, level overflow and so on. Rejection of those invalid inputs has been examined based on input length threshold and GMM-based identification. Experiments on 8,248 inputs of one month showed that almost all of noise and non-verbal inputs such as breath, coughing and laughter can be rejected successfully, and distant background speech and shouts were also discriminative, whereas out-of-domain utterance, obscure speech and fragments cannot be detected only by the acoustic property.