- 著者
-
柴田 知秀
加藤紀雄
黒橋 禎夫
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.49, no.3, pp.1451-1464, 2008-03-15
- 被引用文献数
-
6
近年の計算機・ネットワーク環境の進歩により,膨大な映像アーカイブが蓄積されるようになった.本研究では作業教示映像である料理映像を具体的題材とし,料理映像に現れる食材の物体モデルを自動学習し,それを用いて物体認識を行う手法を提案する.まず,物体がアップになっている画像を抽出し,その画像における注目領域を決定する.次に,画像の周辺の発話から重要な単語をキーワードとして抽出し,注目領域と対応付ける.このような注目領域とキーワードのペアを大量に収集することにより,物体モデルを構築する.物体モデルが構築された後,物体モデルの色情報と談話構造に基づく単語の重要度を考慮することにより,物体認識を行う.2 つの料理番組,計約96 時間分の映像から物体モデルを構築したところ,約100 食材の物体モデルが構築でき,その精度は77.8%であった.また,そのモデルを利用して物体の認識を行ったところ,精度はF 値で0.727 であった.Recent years have seen the rapid increase of multimedia contents with the continuing advance of information technology. We focus on cooking TV videos, which are instruction videos, and propose a method for acquiring object models of foods and performing object recognition based on the acquired object model. Close-up images are first extracted from image sequences, and an attention region is determined on the close-up image. Then, an important word is extracted as a keyword from utterances around the close-up image, and is made correspond to the close-up image. By collecting a set of close-up image and keyword from a large amount of videos, we can acquire the object model. After that, object recognition is performed based on the acquired object model and discourse structure. We conducted an experiment on two kinds of cooking TV programs. We acquired the object model of around 100 foods and its accuracy was 77.8%. The F measure of object recognition was 0.727.