著者
船越 孝太郎 木村 法幸 中野 幹生 岩橋 直人
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.5, pp.610-620, 2010-05-01

本論文では,少数の教示発話から,ユーザが任意に決めた物体や場所の名称をロボットが学習し識別するための手法を提案する.高齢者や児童も含めたユーザの使いやすさを高めるためには,語彙や言い回しに関する制限を課さないことが重要である.また,背景雑音などによって生じる誤認識に対して頑健でなければならない.そこで提案手法では,大語彙連続音声認識を用いて入力音声を認識し,複数の認識候補(N-best)に対しbag-of-wordsモデルに基づくトピック分類を適用することで,語彙や言い回しの制限を無くし,音声の誤認識に対して頑健な名称識別を可能にする.評価実験では,10の名称と六つの異なる言い回しを用いて16人分の音声発話を収集した.これらの音声発話を,雑音なし,雑音あり,雑音があり名称がすべて辞書に未登録,という三つの条件で音声認識し,その認識結果を用いて名称の学習と識別を行った.実験により,提案手法が言い回しの多様性や誤認識に対して頑健に名称を識別できることを確認した.分類手法としては,EMM,SVMV,LSAの3手法を比較し,LSAで最も良い結果を得た.また,N-bestからの頻度情報の抽出に関して,トークン計数法とタイプ計数法の二つの手法を比較し,我々の問題設定においてはタイプ計数法が適当であることを確認した.
著者
神田 直之 駒谷 和範 中野 幹生 中臺 一博 辻野 広司 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.12, pp.55-60, 2006-02-04
被引用文献数
4

複数のドメインを扱う音声対話システムにおいて,対話の文脈や進行に関する特徴量を導入してより精度よくドメイン選択を行う手法を開発したので報告する.本稿ではドメイン選択問題を,応答すべきドメインが,(I)ひとつ前の応答を行ったドメイン,(II)音声認識結果に対する最尤のドメイン,(III)それ以外のいずれかのドメイン,のどれに該当するかを判別する問題と捉える.ドメイン選択の正解を与えた対話データから,対話の文脈や進行に関する特徴量を用いて上記を判別する決定木を学習することにより,ドメイン選択器を構成した.5ドメインのマルチドメイン音声対話システムを用いた10名の被験者による評価実験の結果,音声認識尤度に基づく従来のドメイン選択手法に比べ,ドメイン選択誤りが11.6%削減された.We have developed a robust domain selection method using dialogue history in multi-domain spoken dialogue systems. We define domain selection as classifying problem among (I) the domain in the previous turn, (II) the domain in which N-best speech recognition results can be accepted with the highest recognition score, (III) other domains. We constructed a classifier by decision tree learning with dialogue corpus. The experimental result using 10 subjects shows that our method could reduced 11.6% domain selection error, compared with a conventional method using speech recognition likelihoods only.