著者
井上 中順 斉藤 辰彦 篠田 浩一 古井 貞煕
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.12, pp.2633-2644, 2010-12-01

本研究では,映像の中から「飛行機」や「歌っている人」といった高次特徴を検出するタスクに対し,SIFT特徴とMFCC特徴の混合ガウス分布(GMM)を用いた統計的手法を提案する.検出手法には,話者認識などで用いられてきたゆう度比による検出と,GMM Supervector SVM (GS-SVM)による検出の二つを用いる.ゆう度比による検出では,高次特徴が出現する部分としない部分のGMMをそれぞれ学習し,二つのモデルから得られるゆう度の比をもとに高次特徴を検出する.GS-SVMでは,各ショットに対するGMMを求め,GMM間の距離から定義されるRBFカーネルを用いたSVMで学習・識別を行う.最後に,各手法から対数ゆう度比を求め,その重み付き和により手法の融合を行う.TRECVID2009のデータセットを用いて評価実験を行った結果,Mean Average PrecisionはSIFT特徴とGS-SVMを用いた場合の0.141から,融合手法により0.173まで向上した.