著者
藤原 敬記 伊藤 敏彦 荒木 健治 甲斐 充彦 小西 達裕 伊東 幸宏
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.7, pp.1493-1503, 2006-07-01
参考文献数
24
被引用文献数
9

実環境での音声対話システムの使用において,誤認識を回避することは難しい.誤認識が起きると,システムはユーザの期待する応答とかけ離れた応答を行い,対話がスムーズに進まなくなることも多い.そこで本研究では,音声認識器が誤認識した場合でも,認識信頼度と対話履歴を用いることで正しくユーザの意図を推定することができる音声言語理解手法を提案する.これは,音声認識器が誤認識した場合でも多くの場合,複数候補(N-best)中に正解が含まれていること,システムが誤認識した場合にはユーザは大体訂正反応を示すこと,タスク指向対話には強い一貫性がありユーザは基本的に意味的・文脈的に関係した内容以外を発話しないことを利用する.また,提案手法ではあらかじめすべての認識可能単語を理解候補として保持し,言語理解部の対話戦略において音声認識結果中の単語との意味的関連性などを考慮している.これにより音声認識結果のN-best中に正解の一部が含まれていない場合でも,複数のユーザ発話の認識結果に基づくことで正しい意図を推定することが可能となっている.評価データにおいて,提案手法における対話単位での理解率は72.2%(21,430/29,670対話),単語単位での理解率は87.1%(77,544/89,010単語)であり,従来手法の最新認識結果の上位候補を優先するシステムの57.9% (17,178/29,670対話),75.4%(67,084/89,010単語)と比較しても有効である.
著者
伊藤 敏彦 大谷耕嗣 肥田野 勝 山本 幹雄 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.1994, no.109, pp.49-56, 1994-12-15
被引用文献数
5

自然な発話を許す音声対話システムでは、ユーザの発話を表現する文法が書き言葉と比べてかなり緩くなり、しかも間投詞、言い直しなどの現象も多く生じるため、音声認識率はどうしても低くなる。受理可能な文を多くすることと認識率はトレードオフであるためどこかで妥協する必要があり、このため話者の入力文と受理可能な文にはギャップが生じる。また自然な発話を音声認識部だけで対処することは現在のところ無理があり、誤認識された入力文にも対処することが意味理解部に要求される。本報告では以上の問題点に関する検討のための基礎データを集めることを目標に行なった3つの実験について述べる。一つ目は音声対話システムを使用するユーザへの事前の説明を変えることによって対話システムへのユーザの入力がどのように変化するかを調べた。二つ目はユーザの入力文数に対して異なり単語数がどのように変化するかを調べ、あるタスクでどの程度の単語数が必要かを検討した。三つ目の実験は音声認識部によって生じた誤認識を人間はどれくらい原文と意味的に同じ文に訂正できるかである。It is difficult to recognize and understand spontaneous speech, because spontaneous speech has many phenomena of ambiguty such as omissions, inversions, repairs and so on. Since there is a trade-off between the looseness of linguistic constraints and recognition precision, the recognizer cannot perfectly recognize the completely free speech of the user on the current art of speech recognition. Therefore some problems arise. First problem is that there are gaps between sentences a dialog sysytem can accept and sentences the user wants to say. Second problem is that the semantic analyzer has to understand sentences with misrecognition that human never utters. In this paper, we describe three experiments concerning the problems of spontaneous speech dialog systems and their results. First experiment is about effects of a prior explanation of the system's limit on the speaker's utterance. Second experiment is about the relationship between the number of different words and the number of inputs. Third experiment is about recovery strategies of human to understand correct meanings of misrecognized sentences.
著者
伊藤 敏彦 小暮 悟 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.39, no.5, pp.1248-1257, 1998-05-15
被引用文献数
22

自然言語による音声対話システムにおいては,システムがユーザと協調的に対話を進めていくことは重要である.この考えを基に我々は音声対話システムにおける協調的応答生成システムを開発した.応答生成システムは対話制御部,問題解決器,知識データベース,応答文生成部から構成され,対話システムの意味理解システムによって生成された意味表現を受け取り,可能なかぎり協調的応答をする.たとえば,ユーザの質問文に検索に必要な情報を含まれていなかったり,検索結果の数が多い場合などはユーザへの質問を行う.また,ユーザの望む検索結果が得られなかった場合,それに代わる代案を提案する.本論文では音声対話システムの評価実験であげられたいくつかの応答生成システムの問題点を改良し,ユーザの対話の焦点を抽出し,協調的な応答を行う応答機能を持った応答生成システムについて述べる.また,「システムの使い勝手の良さ」が協調的応答生成の導入によってどのように向上するのかに着目して行った評価実験について述べる.We have developed a robust dialogue system which aids users in information retrieval through spontaneous speech.Dialog system through natural language must be designed so that it can cooperatively response to users.Based on this consideration,we developed a cooperative response generator in the dialogue system.The response generator is composed of dialog manager,problem solver,knowledge databases,and response sentence generator.The response generator receives a semantic representation (that is,semantic network) which the interpreter builds for the user's utterance and generates as cooperative response sentences as possible.For example,if a user's query doesn't have enough conditions/information to answer the question by the system,and if there are many information retrieval candidates from the knowledge database for user's question,the dialog manger queries the user to get necessary conditions and to select the information.Further,if the system can't retrieve any information related to the user's question,the generator proposes an alternative plan.And evaluation experiments are described how the above improvement increses "convenience of the system".
著者
伊藤 敏彦
出版者
北海道大学
雑誌
若手研究(B)
巻号頁・発行日
2008

本研究は音声インターフェイスにおいて、対話のリズムが、ユーザの快適性や安全性にどれほどの影響を与えるか明らかにし、これらの要素を音声インターフェイスに導入するための新たな枠組みを提案することである。そこで、これらに関する対話リズムを生成するためのモデル化のさらなる改良と、音声対話システムへの実装、システム処理速度向上などを行った。結果、これまでの音声対話システムに比べ、人間らしさ、安心感などの評価を上げることができたが、制作システムの処理速度、タイミング認識精度、音声認識・言語理解精度などの不完全さにより、人間と同等の評価まで上げることはできなかった。
著者
池ヶ谷 有希 野口 靖浩 小暮 悟 伊藤 敏彦 小西 達裕 近藤 真 麻生 英樹 高木 朗 伊東 幸宏
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 = Transactions of the Japanese Society for Artificial Intelligence : AI (ISSN:13460714)
巻号頁・発行日
vol.22, pp.291-310, 2007-11-01
被引用文献数
3

This paper describes how to perform syntactic parsing and semantic analysis in a dialog system. The paper especially deals with how to disambiguate potentially ambiguous sentences using the contextual information. Although syntactic parsing and semantic analysis are often studied independently of each other, correct parsing of a sentence often requires the semantic information on the input and/or the contextual information prior to the input. Accordingly, we merge syntactic parsing with semantic analysis, which enables syntactic parsing taking advantage of the semantic content of an input and its context. One of the biggest problems of semantic analysis is how to interpret dependency structures. We employ a framework for semantic representations that circumvents the problem. Within the framework, the meaning of any predicate is converted into a semantic representation which only permits a single type of predicate: an identifying predicate "aru". The semantic representations are expressed as sets of "attribute-value" pairs, and those semantic representations are stored in the context information. Our system disambiguates syntactic/semantic ambiguities of inputs referring to the attribute-value pairs in the context information. We have experimentally confirmed the effectiveness of our approach; specifically, the experiment confirmed high accuracy of parsing and correctness of generated semantic representations.
著者
水野 智士 高木 浩吉 小暮 悟 伊藤 敏彦 甲斐 充彦 小西 達裕 伊東 幸宏
出版者
情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.12, pp.77-82, 2005-02-05
被引用文献数
5

近年の音声認識、言語理解技術、及びコンピュータ性能の向上によって、音声を用いるインタフェースやタスク指向型の対話システムが利用されるようになってきた。そんな中で、より一般的にシステムが利用されるようになるには、より頑健な言語理解が必要となる。本稿では、より頑健な意味理解を実現するために、音声認識信頼と対話履歴を利用して、ユーザ発話意図の推定を行う手法について記述する。本研究では、言語理解の頑健さを向上させるために、対話履歴において、県名や市町村名など、どのカテゴリについての発話がされたのかを識別する。その識別結果と、認識結果のn-bestを利用して言語理解結果を生成する。これを実現する場合、カテゴリ識別の精度がそのまま言語理解精度に影響する。そこで、ユーザの発話意図を推定することで、カテゴリ識別精度の向上を図り言語理解精度向上を目指した。評価実験を行い、音声認識の1-bestをそのまま利用する言語理解手法よりも提案手法のほうが、言語理解精度が高くなることを示した。The spoken dialogue interface and the task oriented dialogue system has come to be used by improving the speech recognition, the language understanding technologies, and the computer performance. We need a more robust language understanding for the system to come to be used more generally. Our paper deals with speech intent presumption method using the confidence score of speech recognition and dialogue history for robust meaning understanding. This language understanding results are generated by using the speech recognition results (n-best) and the identification results. Thus, the accuracy of the category identification influences the language understanding accuracy. Then, we used the presumption of user's speech intention in order to improve the language understanding accuracy. As the result of evaluation experiment, we show that the language understanding performance used our proposed method is higher than the language understanding method which simply gives priority to the first hypothesis of a n-best.
著者
由浅 裕規 水野 智士 伊藤 敏彦 甲斐 充彦 小西 達裕 伊東 幸宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.519, pp.199-204, 2003-12-11
被引用文献数
1

本稿では,状況及び文脈を利用した言語理解手法をもつ音声対話システムの構築と,その有効性を示すための評価実験について述べる.システムに対する発話方法を「対象を操作」,又は嘱性は値」という文体に制限することで認識率の向上を図り,また一入力だけでなく連続的に複数の入力を一発話で行えるようにシステムを構築した.タスクとしてはエアコン・カーステレオの操作を想定し,その音声インタフェースという具体的な状況設定において,被験者20名による評価実験を行った.対話の分析を行うことによって,状況及び文脈を利用した言語理解の有効性,制限された発話方法における言語的な特徴や複数設定発話に関するユーザ意識など,様々な知見を得ることができた.