著者
船越 孝太郎 徳永 健伸 田中穂積
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.104, pp.35-41, 2002-11-12
被引用文献数
1

話し言葉に頻繁に現れる助詞落ち,倒置,自己修復などの不適格性は,音声対話を困難にする大きな要因の1つである.筆者らは,日本語におけるこれらの不適格性が複合して現れることを指摘し,解決法を示した.本論文では提案手法を実装し,新たに収集した音声発話データに対して評価を行なう.発話データの収集に際しては,小量の採集でも不適格性を多く含むように工夫を行なった.実際に音声認識結果に対して構文解析を行なった結果,対話システムが正しく解析できる発話が171発話から322発話に改善されることを確認した.Ill-formedness in speech, such as postposition omission, inversion, and self-correction, is a major obstacle which makes speech dialog difficult. We proposed a method to handle these sources of Japanese ill-formedness in our previous paper. In this paper, we implement the proposed method and evaluate it by using newly collected speech data. We designed the experiment to obtain ill-formedness data effectively. Among 532 utterances in the corpus, introducing the proposed method increased the number of correct analysis from 171 to 322.
著者
田口 亮 岩橋 直人 船越 孝太郎 中野 幹生 能勢 隆 新田 恒雄
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.4, pp.549-559, 2010 (Released:2010-06-30)
参考文献数
18
被引用文献数
2 2

This paper proposes a method for the unsupervised learning of lexicons from pairs of a spoken utterance and an object as its meaning under the condition that any priori linguistic knowledge other than acoustic models of Japanese phonemes is not used. The main problems are the word segmentation of spoken utterances and the learning of the phoneme sequences of the words. To obtain a lexicon, a statistical model, which represents the joint probability of an utterance and an object, is learned based on the minimum description length (MDL) principle. The model consists of three parts: a word list in which each word is represented by a phoneme sequence, a word-bigram model, and a word-meaning model. Through alternate learning processes of these parts, acoustically, grammatically, and semantically appropriate units of phoneme sequences that cover all utterances are acquired as words. Experimental results show that our model can acquire phoneme sequences of object words with about 83.6% accuracy.
著者
船越 孝太郎 木村 法幸 中野 幹生 岩橋 直人
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.5, pp.610-620, 2010-05-01

本論文では,少数の教示発話から,ユーザが任意に決めた物体や場所の名称をロボットが学習し識別するための手法を提案する.高齢者や児童も含めたユーザの使いやすさを高めるためには,語彙や言い回しに関する制限を課さないことが重要である.また,背景雑音などによって生じる誤認識に対して頑健でなければならない.そこで提案手法では,大語彙連続音声認識を用いて入力音声を認識し,複数の認識候補(N-best)に対しbag-of-wordsモデルに基づくトピック分類を適用することで,語彙や言い回しの制限を無くし,音声の誤認識に対して頑健な名称識別を可能にする.評価実験では,10の名称と六つの異なる言い回しを用いて16人分の音声発話を収集した.これらの音声発話を,雑音なし,雑音あり,雑音があり名称がすべて辞書に未登録,という三つの条件で音声認識し,その認識結果を用いて名称の学習と識別を行った.実験により,提案手法が言い回しの多様性や誤認識に対して頑健に名称を識別できることを確認した.分類手法としては,EMM,SVMV,LSAの3手法を比較し,LSAで最も良い結果を得た.また,N-bestからの頻度情報の抽出に関して,トークン計数法とタイプ計数法の二つの手法を比較し,我々の問題設定においてはタイプ計数法が適当であることを確認した.