著者
野ロ顕嗣 柳井 啓司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.36, pp.7-14, 2008-05-01
参考文献数
8

本研究では,国際映像処理ワークショップ TRECVID で 2007 年から始まった映像自動要約タスク(rushes summarization)について取り組む.映像中のショットを色,動き,顔特徴に基づいてクラスタリングし,代表ショットを選ぶことにより映像の自動要約を実現する方法について提案する.実験として最初に3つのシステムについて比較した.1つは特徴量が色だけのもの,2つめは特徴量として動きと色を用いたもの,最後に動き,色,顔を用いたものである.次にこれらのシステムと TRECVID 2007 の参加者との結果を比較した.3つのシステムを比べた結果,動き情報を用いたものと用いなかったものでは結果に大きな差が表れた.次に顔情報であるが,これも結果に大きな差を与えた.以上のことから特徴に顔と,動きを加えることはこのタスクにおいてとても有効であることが分かった.ただしクラスタリングにおいては色特徴を使用しているので,全体的に色が変化しないビデオに関しては良い結果は出せなかった.また,ground truth との一致率である IN 値に関しては TRECVID 2007 の参加者と比べて良い結果が得られた一方,システムの実行時間は他の参加者と比べ良い結果を得ることができなかった.In this paper, we present a method for BBC rushes summarization which is one of a task of TRECVID. In the proposed method, first an input video is decomposed into shots by comparing consecutive frames. Then, these shots are grouped by the k-means method, using color feature, motion feature and face feature. In the experiments, we compared three systems which employed the following feature combinations: "color", "color and motion" and "color, motion and faces". Next we compared these results with ones of the participants of TRECVID 2007. As a result, we found that motion features and face features were effective. The inclusion rate with ground truth was relatively good, while the system time was not so good.