著者
伊藤 慶明 木山 次郎 関 進 小島 浩 張建新 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.73, pp.17-22, 1995-07-20
参考文献数
17
被引用文献数
18

本稿では、人間と計算機の新しい対話形態,インタフェース・システムの提案を行う。本システムでは、マルチユーザによる音声とジェスチャのマルチモーダルな入力が可能で、これらの認識技術を統合することによって音声とジェスチャの同時かつ相補的な理解を実現する。さらに、システムの理解内容を合成音声と画像を通してリアルタイムにかつ漸次的にユーザにフィードバックすることによって、複数の人間と計算機との知的で、かつ豊かなコミュニケーションを実現する。本方式は、一種の思考の支援と考えることもでき、これを次世代のインタフェースと位置付ける。我々は、このインタフェースを実現するために、frame?wise and realtime spotting技術を用いて、複数話者による音声とジェスチャの同時認識/理解リアルタイム統合インタフェースシステムを試作した。This paper proposes a new type of dialog system, or interface system between men and computers. This system allows multi-modal input of speech and gesture by multiple users, and enables simultaneous and complimentary understanding for speech and gesture by integrating both recognition technologies. It realizes intellectual and affluent communication between multiple users and computers by real-time and gradual feedback of understanding state in the system, using synthesis speech and graphics image. The system can be thought as a novel interface system as it gives users a sense of reality and unity. We realized such a real-time interface system that integrates speech understanding and gesture understanding by multiple users.
著者
高橋 勝彦 関 進 小島 浩 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.8, pp.1552-1561, 1994-08-25
被引用文献数
110

CCDカメラ等によって得られる動画像から人間の身振り手振りを認識する手法を提案する.入力画像系列から,垂直・水平・時間方向のエッジ特徴を抽出し,これらを時空間的にリダクションすることによって得られる時空間ベクトル場を用いて各ジェスチャーの標準パターンを表現する.認識対象画像系列と標準パターンとのマッチングにはスポッティング認識手法を用いる.スポッティング認識は,(1)ジェスチャーの時間区間のセグメンテーションが不要,(2)フレームワイズ,すなわち入力画像フレームに同期して認識結果を生成する,といった特長をもつ.7種類のジェスチャーを認識対象として実験を行った結果,本手法によってほぼ正しくジェスチャーを認識できることがわかった.特に時間方向のエッジ特徴を用いた場合は,標準パターン作成時の認識時での被験者の衣服・背景の変化に対し,ロバストであることが確認された.また,本手法を画像処理ボードとワークステーションを組み合わせたシステムにインプリメントし,4種類のジェスチャーをリアルタイムに認識するシステムを構築した.
著者
中沢 正幸 向井 理朗 関 進 綿貫 啓子 三吉 秀夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.15, pp.35-35, 2000-02-04

In this paper we describe a multimodal human interface system MAICO (Multimodal Agent Interface for COmmunication) based on Dynamical Dialogue Model. This system not only integrates information of a speech processing and a gesture processing but also controls the response timing in order to realize a smoothness and a easy interaction between a user and a computer. Our approach consists of human-human dialogue analysis and computational modeling of dialogue.In this paper, we describe a multimodal human interface system, MAICO (Multimodal Agent Interface for COmmunication), based on Dynamical Dialogue Model. This system not only integrates information of a speech processing and a gesture processing, but also controls the response timing in order to realize a smoothness and a easy interaction between a user and a computer. Our approach consists of human-human dialogue analysis, and computational modeling of dialogue.