勝手美紗 内海ゆづ子 黄瀬浩一
vol.2012, no.5, pp.1-7, 2012-11-26

本稿では,インターネット上の大規模な動画像を自動で分類することを目的とし,動画像中のイベントを検出する.インターネットで配信されているホームビデオなどの動画の多くは視点が固定されずに撮影されているため,動画像から人物や物体の動きの情報を取得することは困難であり,行動認識などの技術を用いてイベントを検出することは困難となる.また,イベントは行われる環境や環境を構成する物体に大きく依存する.そこで,動画像中の背景や動画像中に登場する物体に着目し,イベントの検出を行う.背景からは, Opponent SIFT 特徴量を Bag-of-Feature で表現したものを特徴量として抽出する.物体特徴量には,動画像から物体検出器により検出した物体の頻度と識別器の信頼度の値を用いる.それぞれ特徴量を用いて最近傍探索を行い,結果を統合することでイベントの認識を行った.評価は TRECVID2012 Multimedia Event Detection タスクのデータセットを用いて行った.その結果,特定の環境でのみ行われるイベントと動画中の物体を高い精度で検出できたイベントを検出できた.
柏木隆宏 黄瀬浩一
vol.2011, no.20, pp.1-6, 2011-08-29

莫大な数の部分空間を用いて 3 次元物体を高速に認識する手法を提案する.通常,データベース中の部分空間とクエリとなる特徴量の類似度は,その部分空間へ射影した際の射影長を計算することで求められる.そのため,データベース中の部分空間の数が莫大になると,全ての部分空間との類似度を計算し,物体を認識するために,莫大な処理時間が必要となる.そこで我々は、莫大な数の部分空間のデータベースに対して,近似的に探索を行い,高速に物体を認識する手法を提案する.また,近似探索を行った場合でも認識率を維持するため,近似を用いて高速に部分空間の絞り込みを行い,絞り込んだ部分空間において正確な類似度の比較を行う手法も提案する (2 段階処理).更に,この手法を相互部分空間法にも適用し,3 次元物体の高速で高精度な認識を実現する.実験を行った結果,近似を用いて類似度の高い部分空間を求めて物体を認識した場合,近似を用いない場合に比べて処理時間を 300 分の 1 にすることができた.また,近似を用いて相互部分空間法を行うことで,近似を用いた部分空間法と比べて,認識率が 60% 以上向上した.
野口 和人 氏原 慎弥 黄瀬 浩一 岩村 雅一
研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
vol.2009, no.29, pp.205-210, 2009-03-06

カメラ付き携帯電話を入力デバイスとした画像認識では,撮影した画像のぶれやぼけが認識精度低下の原因となる.そのため,ぶれやぼけに対処する手法が重要となる.本稿では,局所特徴量の近似最近傍探索による認識手法に対して,原画像に様々がぶれやぼけを与えた画像を生成し学習する生成型学習を導入することによって対処する.生成型学習を導入するにあたって問題となるのは,学習データの増加にともなって最近傍探索に必要なメモリ量と処理時間が増大することである.これは,特に大規模なデータベースを用いた場合に問題となる.提案手法では,多段階化とスカラー量子化によってこれを解決する. 1 万枚の画像データベースを用いた実験の結果,生成型学習を用いない手法と比べて認識率が 12.3% 向上することがわかった.For image recognition with a camera phone, defocus and motion-blur cause a serious decrease of the image recognition rate. In this report, we employ generative learning, i.e., generating blurred images and learning based on them, for a recognition method using approximate nearest neighbor search of local features. Major prob- lems of generative learning are long processing time and a large amount of memory required for nearest neighbor search. The problems become serious when we use a large-scale database. In the proposed method, they are sloved by cascading recognizers and scalar quantization. From experimental results with 10,000 images, we have confirmed that the proposed method improves the recogniton rate by 12.3% as compared to a method without generative learning.
吉田 智成 高橋 友和 出口 大輔 井手 一郎 村瀬 洋
vol.2011, no.28, pp.1-6, 2011-08-29

監視カメラ映像からの顔画像認識において,顔領域が低解像度であることは認識精度の低下を招く.この問題に対して,動画像を用いた超解像技術を利用することで認識精度が向上できると考えられる.しかし,従来の超解像は,平面物体を撮影した動画像を対象としている場合が多く,顔画像のように向きや表情の変化によって 2 次元的に非剛体変形する動画像を扱うことが困難である.そこで本報告では,局所領域毎に位置合わせをすることで,顔向きや表情の変化に頑健な超解像を行う手法を提案する.具体的には,フレーム間の位置合わせに非剛体レジストレーションを用いることで顔画像の非剛体変形に柔軟に対応する.実際に撮影した動画像を用いた実験の結果,超解像の性能向上が見られ,提案手法の有効性が確認できた.In a face recognition system with surveillance video cameras, the decrease in resolution of face images degrades the recognition accuracy. To overcome this problem, multi-frame super-resolution techniques could be used to improve the accuracy. However, most super-resolution techniques assume that a planar object is captured in input images. Therefore, it is difficult to apply them to face images that include non-rigid deformations caused by changes of face poses and expressions. In this report, we propose a multi-frame super-resolution method that can deal with changes of face poses and expressions. To achieve this, alignment of each local region between video frames is performed by using a free-form deformation method. Thus, the proposed method can easily deal with the non-rigid deformation of face images. Experimental results demonstrate that the proposed method improved the performance of super resolution for actual videos. From this, we confirmed the effectiveness of the proposed method.
甲斐 寛規 宮崎 大輔 古川 亮 青山 正人 日浦 慎作 浅田 尚紀
vol.2011, no.13, pp.1-8, 2011-05-12

カメラの入力画像を用いて,人の口唇の動きを認識することで,発話の検出を行う手法を述べる.近年では,コミュニケーションの解析が盛んに行われており,言語情報を含め,表情や視線,身振りといった非言語情報を総合的に評価しなければならない.本稿では,非言語情報である口唇の動きを認識し,発話の有無を検出する.提案手法は,入力画像の口唇領域と基準画像の口唇領域を用いることで,口唇の形を分類する.この分類結果をもとに,動画像中の一定範囲のフレームでの口唇の形の変化を検出することで,発話の有無を検出する.We propose a method to detect the speech by recognizing the lip motion. Recent study of communication analysis has been done thoroughly, which comprehensively utilizes not only the verbal information but also the non-verbal information such as facial expression, gaze motion, and gesture. The proposed method detects the occurance of the speech by analyzing the lip motion. We first classify the mouth shape from the comparison between the input mouth image and the reference mouth image. We detect the occurance of the speech using the lip motion classified for last several frames of the image sequence.
藤野 晴樹 森 武俊 下坂 正倫 野口 博史 佐藤 知正
vol.2011, no.4, pp.1-8, 2011-05-12

本論文では動画群の中から特定のシーンをマニュアルで探す操作を効率的に行えるようにするために複数の動画を同時に操作できるシステムを提案する.システムの操作をユーザの手の動きに着目したジェスチャで行うことを考え,環境設置型のセンサを用いて手先の三次元位置をリアルタイムで推定する.片手の動きの速度に着目したジェスチャデザインにすることで動きと動画の操作を結びつける.また提示部の表示構成をドック型にするなどの工夫により同時・複数人でも使いやすいインタフェースとした.このシステムを用いることによって動画のシーン探索の効率が向上することを実際の使用シーンに則した実験により示す.At video sharing sites, users have tasks to look for specified scenes manually from some videos after searching with keywords from a lot more movies. In this paper, we propose a system which allows users to operate multiple movies at the same time using hand gestures. We use environment-embedded sensors for measurement of the hand position in 3d space to recognize gesture and designed effective gesture and dock styled presentation part to realize simultaneous operation of multiple videos for one or more users. Experimental result shows the effectiveness of the method.
三宅 弘志 黄瀬 浩一
研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
vol.2009, no.29, pp.211-216, 2009-03-06

リンク機能は,インターネットを代表とする電脳世界でしばしば用いられる機能である.実世界に存在するリンク機能について考えてみると,バーコードや RFID 等,物体を手掛かりとして情報を得る技術は存在する.しかし,これらの技術を利用しても情報の登録に手間がかかるため,個人が気軽に使用できるとは言えない.そこで本稿では,個人ユーザが手軽に利用できる,リンク機能を実世界に拡張す るシステムを提案する.本システムには,本稿で述べる考察の結果から得られる条件を満たす物体認識技術を用いる.そして既存技術では実現されていない受動的な情報獲得に対応するために,複数 物体の認識,物体の位置の推定,処理の高速化を行う.個人ユーザがこのシステムを利用する様々な場合を想定した実験を行い,本システムの有用性を確認した.The link function makes the cyber world such as the Internet attractive. Technologies such as bar codes and RFIDs enable us to use the link function for objects in the real world. Although users can follow the links provided by these technologies, they cannot easily make new links; the link function for objects are partially available. In this report, we propose a new system for the full link function for objects. For the better use of the link function, it is also required to find links on objects without pointing them by the camera (passive acquisition of information). The system provides the passive acquisition with the help of multiple object recognition, estimation of object positions, and real-time processing. Experimental results show that users feel that the system is useful for establishing and finding links from objects in the real world.
本道 貴行 黄瀬 浩一
研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
vol.2009, no.29, pp.171-176, 2009-03-06

SIFT (Scale-Invariant Feature Transform) などの局所特徴量を用いて,大規模特定物体認識を行う場合には,データベースに保持しておく局所特徴量 (特徴ベクトル) の数が増大する.そのため,メモリ容量の削減が課題となる.本稿では,局所特徴量のベクトル量子化の手法と,取捨選択の方法によって,メモリ容量の削減を試みる.実験の結果,ベクトル量子化では,好ましい結果は得られなかった.一方,局所特徴量の取捨選択では,スケール耐性を犠牲にすることにはなるものの,入力画像のスケールがおおよそ決まっていれば,無削減のデータベースの 1/10程度にしても,認識率はほとんど変化しないことが分かった.In case of conducting large-scale specific objects recognition using local features such as SIFT, the number of local features increases. Hence, reduction of the memory utilization is an important issue. In this report, we attempt memory reduction with two approaches; one is a method using vector quantization, and the other is one using selection of local features. Prom experimental results, we confirm that good results could not be acquired by vector quantization. On the other hand, if we employ feature selection as the method, the recognition rate hardly decreases with a database whose size is 10% of its original.
伊東 靖簡 猿田 和樹 寺田 裕樹 武田 和時
研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
vol.2009, no.29, pp.13-18, 2009-03-06

一般物体認識とは,実世界シーンの画像を一般名称で認識する技術である。本研究では,画像中からクラスに関係なく物体領域を抽出する手法を提案する。提案手法は,学習プロセスにおいて,物体のクラスを認識する識別器だけでなく,入力画像に対して物体領域と非物体領域を判定し,検出する検出器を生成する。標準評価画像データセットを対象にした実験において,提案手法の検出精度の性能評価とそれを利用した認識実験を行い,従来手法と同等の認識精度を得ることで提案手法の有効性を確認した。Generic Object Recognition means that the computer recognize the object classes in natural images. In this paper, we propose the method which can extract the region around object in the images without object class. We don't only train class classifier, but also object detector which can distinguish object and non-object regions in training process. We proved our proposed method achieve high accuracy of detection and recognition on the image database.