著者
田中 克幸 滝口 哲也 有木康雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告グループウェアとネットワークサービス(GN) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.6, pp.59-66, 2007-01-25

情報網・Web2.0の発展や放送のデジタル化により、情報整理が困難なメディア、映像、画像、音などの普及が情報の無秩序な肥大化を促進し情報氾濫を招いている。情報量の爆発とプラットフォームの多様化により、ユーザーが欲しい情報が入手できない状況にあり、効率的にユーザーが欲しい情報だけを入手できる環境が必要とされてきている。そこで、本稿では、NetNewsとTV映像のクロスプラットフォームの動画インデキシングと音声インタフェイスによる、検索システムを構築し、ユーザーが快適に動画観覧でき、疑問解決をできるNetTvシステムを構築し、情報の統合によるユーザーの検索軽減を目指した。The advancement of information technology, which includes such developments as Web2.0, on digital TV and Broadband, enables anyone and everyone to access and participate to access any form of media, like documents, movies, images etc via the internet very easily. However, due to information growth and the decentralization of platforms, users are faced with increasing difficulty in finding the information that they really are interested in. Our research enables the searching of news on the internet (NetNews) and TV by speech interface, thereby offering users a better search of cross-platform videos.
著者
西島 政幸 土井 啓輔 有木 康雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会総合大会講演論文集
巻号頁・発行日
vol.1995, no.1, 1995-03-27

音声認識では、誰が何をしゃべったかを同時に認識することが重要である。なぜなら同じ内容をしゃべっても人によって意味が変わる場合が生じるからである。そこで、個人性情報と音韻性情報を分離し、話者認識と音声認識を並列に実行することが必要となってくる。我々は、この観点から個々の話者には話者固有の部分空間が存在し、これを個人性情報と考えることにより、部分空間法を用いた話者認識が可能であることを示した。今回、時期差に対処するための時期差を差し引く方法を考え、実験によりその有効性を確かめたので報告する。
著者
滝口 哲也 有木 康雄 佐古 淳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.103, pp.25-30, 2005-10-21
被引用文献数
1

本研究では、テレビを見ているその場で知らないことや知りたいこと、関心のあることについてテレビに問い合わせる事が可能な「対話型テレビ」の構築を目的としている。提案する対話型テレビは、バックエンド処理部とフロントエンド処理部から構成される。バックエンド処理部では、あらかじめニュース映像、野球、サッカー映像等からコンテンツ解析を行い、メタ情報の抽出を行う。フロントエンド処理部では、ユーザーの意図を抽出するため、ハンズフリー音声認識、ハンドポインティング認識が行われる。本稿では、現在開発を進めているコンテキストアウェアネスに基づく対話型テレビの実装例、及びフロントエンド処理部について述べる。In this paper, we propose a structure and components of a conversational television set (TV) to which we can ask anything on the broadcasted contents and receive the interesting information from the TV. The conversational TV is composed of two types of processing: back-end processing and front-end processing. In the back-end processing, broadcasted contents are analyzed using speech and video recognition techniques and both of the meta data and the structure are extracted. In the front-end processing, human speech and hand action are recognized to understand the user intention. We show some applications, being developed in this conversational TV with multi-modal interactions, such as word explanation, human information retrieval, event retrieval in soccer and baseball video games with contextual awareness.