著者
伊藤 慶明 木山 次郎 関 進 小島 浩 張建新 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.73, pp.17-22, 1995-07-20
参考文献数
17
被引用文献数
18

本稿では、人間と計算機の新しい対話形態,インタフェース・システムの提案を行う。本システムでは、マルチユーザによる音声とジェスチャのマルチモーダルな入力が可能で、これらの認識技術を統合することによって音声とジェスチャの同時かつ相補的な理解を実現する。さらに、システムの理解内容を合成音声と画像を通してリアルタイムにかつ漸次的にユーザにフィードバックすることによって、複数の人間と計算機との知的で、かつ豊かなコミュニケーションを実現する。本方式は、一種の思考の支援と考えることもでき、これを次世代のインタフェースと位置付ける。我々は、このインタフェースを実現するために、frame?wise and realtime spotting技術を用いて、複数話者による音声とジェスチャの同時認識/理解リアルタイム統合インタフェースシステムを試作した。This paper proposes a new type of dialog system, or interface system between men and computers. This system allows multi-modal input of speech and gesture by multiple users, and enables simultaneous and complimentary understanding for speech and gesture by integrating both recognition technologies. It realizes intellectual and affluent communication between multiple users and computers by real-time and gradual feedback of understanding state in the system, using synthesis speech and graphics image. The system can be thought as a novel interface system as it gives users a sense of reality and unity. We realized such a real-time interface system that integrates speech understanding and gesture understanding by multiple users.
著者
西村 拓一 橋口 博樹 関本 信博 張建新 後藤 真孝 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.103, pp.7-14, 2001-10-26
被引用文献数
1

我々は,音楽音響信号のデータベースから,鼻歌のメロディーに類似した区間を見つけ出す音楽検索システムを提案している.本システムでは,個人的に収集したビデオデータからの検索も可能である.しかし,このシステムで用いていた「Model driven path 連続DP」呼ぶマッチング手法は,クエリーの時間軸,データベースの時間軸,音高の軸からなる3次元空間中において,局所類似度を連続DPに基づいて累積し,極大となる累積類似度を計算するもので,その計算量が大きい.そこで,クエリーの始端周辺の音高が正しく推定できたと仮定することで,音高軸を削減した2次元空間における局所類似度の累積に基づく「始端特徴依存連続DP」を提案する.本稿では,ポピュラー音楽20曲について鼻歌検索実験を行い,約7割の検索率を維持しつつ,計算量を従来法の約1/40に低減できることを示す.We have developed a music retrieval method that takes a humming query and finds similar audio intervals (segments) in a music audio database. This method can also address a personally recorded video database containing melodies in its audio track. Our previous retrieving method took too much time to retrieve a segment: for example, a 60-minute database required about 10-minute computation on a personal computer. In this paper, we propose a new high-speed retrieving method, called start frame feature dependent continuous Dynamic Programming, which assumes that the pitch of the interval start point is accurate. Test results show that the proposed method reduces retrieval time to about 1/40 of present methods.