著者
船越 孝太郎 木村 法幸 中野 幹生 岩橋 直人
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.5, pp.610-620, 2010-05-01

本論文では,少数の教示発話から,ユーザが任意に決めた物体や場所の名称をロボットが学習し識別するための手法を提案する.高齢者や児童も含めたユーザの使いやすさを高めるためには,語彙や言い回しに関する制限を課さないことが重要である.また,背景雑音などによって生じる誤認識に対して頑健でなければならない.そこで提案手法では,大語彙連続音声認識を用いて入力音声を認識し,複数の認識候補(N-best)に対しbag-of-wordsモデルに基づくトピック分類を適用することで,語彙や言い回しの制限を無くし,音声の誤認識に対して頑健な名称識別を可能にする.評価実験では,10の名称と六つの異なる言い回しを用いて16人分の音声発話を収集した.これらの音声発話を,雑音なし,雑音あり,雑音があり名称がすべて辞書に未登録,という三つの条件で音声認識し,その認識結果を用いて名称の学習と識別を行った.実験により,提案手法が言い回しの多様性や誤認識に対して頑健に名称を識別できることを確認した.分類手法としては,EMM,SVMV,LSAの3手法を比較し,LSAで最も良い結果を得た.また,N-bestからの頻度情報の抽出に関して,トークン計数法とタイプ計数法の二つの手法を比較し,我々の問題設定においてはタイプ計数法が適当であることを確認した.