著者
神田 直之 駒谷 和範 中野 幹生 中臺 一博 辻野 広司 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.12, pp.55-60, 2006-02-04
被引用文献数
4

複数のドメインを扱う音声対話システムにおいて,対話の文脈や進行に関する特徴量を導入してより精度よくドメイン選択を行う手法を開発したので報告する.本稿ではドメイン選択問題を,応答すべきドメインが,(I)ひとつ前の応答を行ったドメイン,(II)音声認識結果に対する最尤のドメイン,(III)それ以外のいずれかのドメイン,のどれに該当するかを判別する問題と捉える.ドメイン選択の正解を与えた対話データから,対話の文脈や進行に関する特徴量を用いて上記を判別する決定木を学習することにより,ドメイン選択器を構成した.5ドメインのマルチドメイン音声対話システムを用いた10名の被験者による評価実験の結果,音声認識尤度に基づく従来のドメイン選択手法に比べ,ドメイン選択誤りが11.6%削減された.We have developed a robust domain selection method using dialogue history in multi-domain spoken dialogue systems. We define domain selection as classifying problem among (I) the domain in the previous turn, (II) the domain in which N-best speech recognition results can be accepted with the highest recognition score, (III) other domains. We constructed a classifier by decision tree learning with dialogue corpus. The experimental result using 10 subjects shows that our method could reduced 11.6% domain selection error, compared with a conventional method using speech recognition likelihoods only.
著者
水野 智士 高木 浩吉 小暮 悟 伊藤 敏彦 甲斐 充彦 小西 達裕 伊東 幸宏
出版者
情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.12, pp.77-82, 2005-02-05
被引用文献数
5

近年の音声認識、言語理解技術、及びコンピュータ性能の向上によって、音声を用いるインタフェースやタスク指向型の対話システムが利用されるようになってきた。そんな中で、より一般的にシステムが利用されるようになるには、より頑健な言語理解が必要となる。本稿では、より頑健な意味理解を実現するために、音声認識信頼と対話履歴を利用して、ユーザ発話意図の推定を行う手法について記述する。本研究では、言語理解の頑健さを向上させるために、対話履歴において、県名や市町村名など、どのカテゴリについての発話がされたのかを識別する。その識別結果と、認識結果のn-bestを利用して言語理解結果を生成する。これを実現する場合、カテゴリ識別の精度がそのまま言語理解精度に影響する。そこで、ユーザの発話意図を推定することで、カテゴリ識別精度の向上を図り言語理解精度向上を目指した。評価実験を行い、音声認識の1-bestをそのまま利用する言語理解手法よりも提案手法のほうが、言語理解精度が高くなることを示した。The spoken dialogue interface and the task oriented dialogue system has come to be used by improving the speech recognition, the language understanding technologies, and the computer performance. We need a more robust language understanding for the system to come to be used more generally. Our paper deals with speech intent presumption method using the confidence score of speech recognition and dialogue history for robust meaning understanding. This language understanding results are generated by using the speech recognition results (n-best) and the identification results. Thus, the accuracy of the category identification influences the language understanding accuracy. Then, we used the presumption of user's speech intention in order to improve the language understanding accuracy. As the result of evaluation experiment, we show that the language understanding performance used our proposed method is higher than the language understanding method which simply gives priority to the first hypothesis of a n-best.
著者
中野 鐵兵 佐々木 浩 藤江 真也 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.46, pp.77-84, 2008-05-15
被引用文献数
5

音声・言語アプリケーションにおける従来の語彙情報作成手法の問題点を解決するため,集合知を利用した語彙情報の収集・共有・管理システムを提案する.具体的には,語彙情報を集中管理するためのオンラインデータベースシステムを構築し,それを利用者に公開する.提案システムでは,Web 資源からの語彙情報の自動収集の枠組みを備え,データの集約を図る.また,アプリケーション用語彙の新規作成から,その継続的な更新まで包括的な解法を提供し,これまで各々の開発者がアプリケーション毎に用意していた語彙定義のプロセスの一元化を図る.さらに,インタフェースを広く公開し,アプリケーション間の語彙定義の共有や,アプリケーションで使用する語彙の自動更新のサポートを図る.本稿では,実際に提案システムの実装として開発されたプロトタイプシステムと,提案システムによって実際に有効な語彙リストの生成が可能である事を示した評価実験について述べる.In order to solve the problems of the conventional approach of designing lexicons, we propose a new approach: using a lexical data collection, sharing, and management system using collective intelligence. In particular, we construct and operate a new online database system for lexical informations. The proposed system is designed as a data intensive system so that it can collect lexical information from all web-based resources. Also, the system provides the comprehensive solution of designing lexicons so that the designing processes of lexicons can be standardized. Besides, the system interface is published so that lexical informations are shared by many applications. In this paper, the prototype system developed based on the proposed approach and the feasibility test for designing lexicons are described. The assessment result showed that the proper lexicons can be generated from the proposed system.
著者
新田 恒雄 神尾 広幸 雨宮 美香 松浦 博 内山 ありさ 田村 正文
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.73, pp.29-34, 1995-07-20
被引用文献数
8

マルチモーダルUI (U)の設計?評価を短期間に行うラピッドプロトタイピング開発環境について述べる。開発環境は、MUI設計支援エディタMuse、UIScript変換、およびマルチモーダル対話プラットホームMultiksDialのツール群からなり、Museで作成したMUIを中間言語(IScrip)を介してcode?dataに変換した後、マルチモーダル対話プラットホームMultiksDialの上で実際に操作・評価することができる。Museでは各UI?Object(ボタン/音声認識/センサなどの入力オブジェクト,イメージ部品/テキスト部品/録音合成/規則合成などの出力オブジェクト)のプロパティ設定をdialogue boxを利用して簡単に行えるようになっている。ラピッドプロトタイピング開発環境の整備により、様々なタスクを対象に短期間にMUIを試作・評価することが可能である。In recent years, we have developed various types of multimodal dialogue systems, including a ticket vendor, an ATM, and an information kiosk. Because the designing of multimodal user-interface (MUI) is more complicated than that of existing UI based on graphical UI (GUI) and has not obtained its regular method yet, the development of a multimodal dialogue system requires a long span of time. Through the experience on iterative design of the above mentioned applications, we came to think of the importance of the rapid-prototyping of multimodal dialogue systems for collecting data systematically over various types of application areas. In this paper, we describe a platform of multimodal dialogue systems and rapid-prototyping by using a multimodal UI design support tool with which system developers can design panels, set properties of input/output channels, describe plan-goal scenarios, and evaluate multi modal UI easily.
著者
篠崎 翼 阿部 匡伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.66, pp.81-88, 1997-07-18
被引用文献数
5

我々は規則合成音声をインタフェースに利用して、システムを使う気になるとかシステムに親しみを持てる等といったユーザフレンドリーなシステムを実現したいと考えている。本稿では、ユーザの入力に対するシステムのリアクションを合成音声で出力し、1から3モーラ程度のリアクション音声の韻律とそれから受ける印象とを検討した。その結果、言葉による合成音声の印象の違いは小さく、韻律による合成音声の印象の違いが大きいことがわかった。また、韻律を適切に調整した合成音声を付加することにより意図した印象を規則合成音声に与えることができる見通しを得た。In this paper, we report a strategy that enhances user friendliness using synthesized speech. We investigate user's impression that is caused by a system response using synthesized speech. Experiments were performed using a kind of a question and answer system. In the experiments, a system asks questions by synthesized speech, human inputs an answer using a mouse device, then the system outputs one or two syllable synthesized speech. The experiment results shows prosodic parameters (fundamental frequency and duration) are important to represent impressions such as kindness, fun, confidence and so on. On the other hand, phonemes in the syllable have little influence to the impressions.
著者
土屋 雅稔 肥田 新也 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2008, no.46, pp.1-6, 2008-05-15

統計的固有表現抽出のためには,固有表現がタグ付けされた十分な量の学習コーパスが必要である.しかし,新規の固有表現が増加し続けていることを考慮すると,あらゆる固有表現に対応した学習コーパスを用意することは非現実的である.本稿では,この問題に対処するために,固有表現がタグ付けされたコーパスとタグ付けされていないコーパスを併用して,タグ付けされたコーパスに頻出しない語 (非頻出語) を含む固有表現を抽出する手法を提案する.提案手法は 2 段階からなる.最初に,タグ付けされていない大量のコーパスを用いて,入力テキストに含まれている非頻出語を,その非頻出語と良く似た頻出語に対応付ける.次に,元々の語から得られる素性と頻出語から得られる素性の両方を組み合わせて学習した統計的固有表現抽出器によって,固有表現を抽出する.IREX コーパスと NHK コーパスを用いた実験により,提案手法は,非頻出語からなる固有表現の抽出において効果的であることを示す.This paper proposes a novel method to extract named entities including infrequent words which do not occur or occur few times in a training corpus using a large unannotated corpus. The proposed method consists of two steps. The first step is to assign the most similar and frequent word to each infrequent word based on their context vectors calculated from a large unannotated corpus. After that, traditional machine learning approaches are employed as the second step. The experiments of extracting Japanese named entities from IREX corpus and NHK corpus show the effectiveness of the proposed method.
著者
土肥 浩 石塚 満
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.1998, no.95, pp.25-30, 1998-10-16

本論文では,Webページの作者がマルチメディア・コンテンツの一部としてインタフェースエージェントを記述し,Webページと連動して実用的な時間内でネットワークからダウンロードした擬人化エージェントを次々と切り替えることができるインタフェース,ビジュアル・ページエージェントVPA(Visual Page Agent)について述べる.VPAのエージェント・キャラクタは1枚の顔写真をもとにして生成される.VSAエディタを用いることにより,誰でも容易に動きのある顔画像キャラクタを作ることができる.このエージェントをWebページと関連づけることにより,ユーザがWebページを移動するたびに,そのページに関係するエージェントが画面上に現われてガイドしてくれる.エージェントはメッセージを伝えたり,またユーザと簡単な音声対話ができる.クライアント側のユーザにとっては,情報発信者の顔が見えるというメリットがある.This paper describes a network-downloadable anthropomorphic interface agent with a realistic face, called VPA(Visual Page Agent). An author can assign the facial image and some properties of the interface agent to own web page as the part of the multimedia contents. Whenever a user opens the web page, the agent with assigned face is downloaded and then appears on a display. The agent equips a simple speech dialog function, therefore it delivers author's messages to the user and can reply simple question.
著者
白勢 彩子 原 直 藤村 浩司 伊藤克亘 武田 一哉 板倉 文忠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.124, pp.253-258, 2003-12-19

本研究は,音声対話システムの利用に必要な知識,技術の学習過程および問題点を明らかとし,これらがシステム評価に与える影響を検討するため,実システムを用いた観察実験を行ない,それによって得られた結果に基づいて,ユーザの達成度とアンケートによるシステム評価との関連性に関する基礎的な議論を行なった.分析の結果,発話認識率と発話数とに相関がある評価項目はほとんどなく,むしろ,会話満足度,システム理解度と多く関連することが明らかとなった.従来,認識率とシステム評価とがよく一致することが知られているが,他の観点からの評価も考慮する必要があることが示唆された.今後は,被験者数を増大させて条件を統制した実験を行ない,より詳細な議論をしていきたい.This study aims to describe user problems and process of learning skill in using spoken dialogue systems and to reveal how these impact on the evaluation of the system usefulness. For this aim, we designed a new dialogue system and carried out a field test for a large number of subjects and asked them to evaluate the usefulness of the system. The results showed that the evaluation of the system did not correlate a recognition rate but user satisfaction and comprehension. This suggested that the spoken dialogue systems should be evaluated in terms of user factors. Controlled experiments are needed to discuss in detail.
著者
竹内 翔大 ツィンツァレク トビアス 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.295-300, 2007-12-21
被引用文献数
2

実環境で頑健に動作する音声対話システムには多彩な発話表現を柔軟に処理できる対話制御技術が必要となる.多彩な発話表現に対して頑健な応答生成手法として,用例ベースの応答生成が研究されている.この手法では質問応答データベース (QADB) を用いて入力音声の認識結果に最も近い質問例を選択し,入力に対して最も適切な応答を生成する.これまで,QADB は発話データの書き起こし文を用いて作成されていた.本稿では,音声認識結果を用いた QADB (認識結果 QADB) による応答生成とその最適化を提案する.この手法により,入力に含まれる音声認識誤りに頑健な用例選択が行える.システム応答の適切さを応答正解率で評価した結果,6候補程度の認識結果を用いて QADB を作成し,最適化を行うことで,従来と同等以上の応答正解率が得られた.A speech-oriented dialog system employed in real-environment requires dialog control techniques which enable flexible processing of various utterance expressions. As a robust response generation method for various utterance expressions, an example-based response generation method has been studied. This method employs a question and answer database (QADB) to generate the most appropriate response by selecting an example question which is nearest to an input. Conventionally, a QADB is constructed from transcriptions of utterance data. In this paper, we propose response generation based on a question and answer database using automated speech recognition results (ASR-QADB), which enables to perform robust selection of examples against recognition errors. Evaluating the performance of system responses by response accuracy, the same response accuracy as with the conventional method is achieved by constructing and optimizing ASR-QADB using 6-best recognition results.
著者
宮崎 敏彦 須崎 昌彦 久野 裕次 田川 忠道
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.73, pp.67-72, 1995-07-20
被引用文献数
2

人とコンピュータの円滑なインタフェース構築を目指して、コンピュータグラフィックスによる顔画像生成と、画像認識,音声対話を統合したシステムを試作した。画像認識部ではディスプレイの前の人物の頭部位置を検出し、検出結果を入力画像毎に対応付けることによって顔画像の視線の動きを自然なものにしている。音声対話部では対話の状態にあった入力手段を提供するなど、ユーザが適切な応答をすることができるサポートをすると同時に、顔画像の表情や動きを変化させることで対話システムの欠点を補っている。さらに、システムの機能を補間するという位置付けで、デスクトップTV会議システムと結合し、システムが対処できない状況では適宜専門化に補助を依頼することもできる。For the purpose of easing human computer interaction, we built a visitor guidance system integrating facial animation by computer graphics, image processing, and speech dialogue. Gaze directions of the facial animation are controlled by detecting head positions of the persons in front of the display and tracking the person who is regarded as the main target. The speech dialogue part gives a user appropriate answers by incorporating an extended plan reasoning method. By changing facial expressions and movements of the facial animation, we can show the states of the system to a user as nonverbal information to make up for the weakness of the speech dialogue such as inaccuracy of voice recognition. We integrated the desktop conference system into our multi-modal interaction system. It can decrease unsolved situations with the assistance of a human expert.
著者
中島 淑貴 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.107, pp.13-18, 2006-10-20

NAMマイクロホンにより収録されるNAMは,声質変換などの技術で,通常音声やささやき声に変換して無音声電話などの通信に使う方法があるが,NAMマイクロホン回路に,あるカットオフ周波数とスロープ特性をもつハイパスフィルタを組み込むことにより,出力は聴覚的に擬似的なささやき声様の音声となり,学習の必要がなく,ローコストでリソース消費のない通信利用が可能になる.今回我々は理想的なハイパスフィルタのカットオフ周波数とスロープを決めるために HPF-NAMの聴覚的な評価実験を行った.Non-Audible Murmur (NAM) can be used as an input interface for confidential telecommunication that annoys nobody due to its conversion to normal speech or a whisper voice using the technology of statistical voice conversion, so-called "non-speech telephony." Instead of using statistical voice conversion we installed an analog high-pass filter only of a resistor and a condenser into the NAM microphone amplifier circuit, and converted NAMs to a whisper-like voice (HPF-NAM) at presumably the lowest resource cost. In this paper we perform perceptual evaluations of naturalness and intelligibility on HPF-NAMs to determine the optimal cut-off frequency and filter slope of the high-pass filter.
著者
伊賀 聡一郎 安村 通晃
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.16, pp.75-80, 1997-02-07

我々は実世界のものからのアフォーダンスの計算機インタフェースへの応用を試みている。本研究では、実世界のものを利用した計算機システムにおける合成音声のアフォーダンスに関する実験を通じて実環境の音声情報による拡張に関する検討を行なう。合成音声に対する知覚の際のカテゴリーの判断基準、SD法による合成器のパラメータ変化による印象の違い、実環境の指示操作における合成音声の影響に関しての実験を行なった。合成音声のカテゴリーの種類による実操作でのモードの表現、合成器のパラメータの切替えによる実環境の状況表現の可能性について検討した。また、実世界の指示操作でのパラメータの変化による影響について実験を行ない、心理的な印象を元にした合成器のパラメータの切替えについての可能性を示した。This paper describes on applying speech synthesizer in computer interface which utilizes real world affordance. We have conducted three experiments which are to categorize voices of speech synthesizer, define mental images of voices by the difference of parameters (accent, pitch, and speed), and observe the actions of users in instructed tasks. And we have shown the possibility of using speech parameters in the computer augmented environment by representing modes by changing parameters of speech synthesizer.
著者
滝口 哲也 有木 康雄 佐古 淳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.103, pp.25-30, 2005-10-21
被引用文献数
1

本研究では、テレビを見ているその場で知らないことや知りたいこと、関心のあることについてテレビに問い合わせる事が可能な「対話型テレビ」の構築を目的としている。提案する対話型テレビは、バックエンド処理部とフロントエンド処理部から構成される。バックエンド処理部では、あらかじめニュース映像、野球、サッカー映像等からコンテンツ解析を行い、メタ情報の抽出を行う。フロントエンド処理部では、ユーザーの意図を抽出するため、ハンズフリー音声認識、ハンドポインティング認識が行われる。本稿では、現在開発を進めているコンテキストアウェアネスに基づく対話型テレビの実装例、及びフロントエンド処理部について述べる。In this paper, we propose a structure and components of a conversational television set (TV) to which we can ask anything on the broadcasted contents and receive the interesting information from the TV. The conversational TV is composed of two types of processing: back-end processing and front-end processing. In the back-end processing, broadcasted contents are analyzed using speech and video recognition techniques and both of the meta data and the structure are extracted. In the front-end processing, human speech and hand action are recognized to understand the user intention. We show some applications, being developed in this conversational TV with multi-modal interactions, such as word explanation, human information retrieval, event retrieval in soccer and baseball video games with contextual awareness.