著者
安部武宏 佐古淳
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.5, pp.1-6, 2014-08-18

本稿では,事前に登録した打音の励起をリアルタイムで検出する技術について述べる.ゲームのインターフェースの入力として打音を利用することは,従来のボタンなどの物理的な装置を介した入力よりも直感的であり,音声マイクが低コストかつ手軽に使用できるという点においても有用である.ユーザにストレスを感じさせないための課題として,リアルタイム性,安定した認識率,豊富な登録数,雑音への対処がある.これら課題に対するアプローチとして,打音検出を前提とする処埋過程を導入した拡張NMF(Non-negative Matrix Factorization)を用いる.タブレットデバイス上でリアルタイムで動作できる実験条件にて試行した評価実験では,課題の中で最も重要だと思われる認識率に着目して評価した.最後に,評価の結果を踏まえて本手法のゲームでの実用性について述べる.
著者
滝口 哲也 有木 康雄 佐古 淳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.103, pp.25-30, 2005-10-21
被引用文献数
1

本研究では、テレビを見ているその場で知らないことや知りたいこと、関心のあることについてテレビに問い合わせる事が可能な「対話型テレビ」の構築を目的としている。提案する対話型テレビは、バックエンド処理部とフロントエンド処理部から構成される。バックエンド処理部では、あらかじめニュース映像、野球、サッカー映像等からコンテンツ解析を行い、メタ情報の抽出を行う。フロントエンド処理部では、ユーザーの意図を抽出するため、ハンズフリー音声認識、ハンドポインティング認識が行われる。本稿では、現在開発を進めているコンテキストアウェアネスに基づく対話型テレビの実装例、及びフロントエンド処理部について述べる。In this paper, we propose a structure and components of a conversational television set (TV) to which we can ask anything on the broadcasted contents and receive the interesting information from the TV. The conversational TV is composed of two types of processing: back-end processing and front-end processing. In the back-end processing, broadcasted contents are analyzed using speech and video recognition techniques and both of the meta data and the structure are extracted. In the front-end processing, human speech and hand action are recognized to understand the user intention. We show some applications, being developed in this conversational TV with multi-modal interactions, such as word explanation, human information retrieval, event retrieval in soccer and baseball video games with contextual awareness.