著者
柳井 啓司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.48, no.16, pp.1-24, 2007-11-15
被引用文献数
68

「一般物体認識」とは,制約のない実世界シーンの画像に対して計算機がその中に含まれる物体を一般的な名称で認識することで,コンピュータビジョンの究極の研究課題の1つである.人間は数万種類の対象を認識可能であるといわれるが,計算機にとっては,同一クラスに属する対象のアピアランスが大きく変化するために以前はわずか1種類の対象を認識することすら困難であった.ここ数年,新しいモデル表現の提案,機械学習法の進歩,計算機の高速化などにより,急速に研究が進展しており,現在は101種類の対象に対して6割程度の精度で認識が可能となってきている.本論文では,一般物体認識研究のサーベイを手法に加えて,データセット,評価ベンチマークについて行い,さらにその今後について展望する."Generic object recognition" aims at enabling a computer to recognize objects in images with their category names, which is one of the ultimate goals of computer vision research. The categories which are treated with in generic object recognition have broad variability regarding their appearance, which makes the problem very tough. Although human can recognizeten thousands of kinds of objects, it is extremely difficult for a computer to recognize even one kind of objects. For these several years, due to proposal of novel representation of visual models, progress of machine learning methods, and speeding-up of computers, research on generic object recognition has progressed greatly. According to the best result, the 66.23% precision for 101-class generic image recognition has been obtained so far. In this paper, we survey the current state of generic object recognition research in terms of datasets and evaluation benchmarks as well as methods, and discuss its future directions.
著者
南里 卓也 大津展之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.46, no.15, pp.43-50, 2005-10-15
被引用文献数
48 23

セキュリティ分野における映像監視や老人介護のモニタリングシステムなどにおいて,異常動作の検出は非常に重要な課題である.そこで,本論文では,固定カメラによる複数人動画像からの異常動作検出のための教師なし手法を提案する.本手法では,画面内で頻繁に行われる動作を通常動作とし,異常動作をその通常動作の特徴分布から逸脱するものとして定義する.動作特徴として立体高次局所自己相関特徴を用いており,この特徴の加法性の性質と固有空間法の線形性がうまく組み合わさることによって,画面内に複数人いる場合でも,個々の人物の切り出しやトラッキングをすることなく容易に学習および検出が可能となる.しかも対象に関する先見知識もいっさい必要としない.実験では,複数人の歩行者の中での転ぶ動作を異常動作として検出し,手法の有効性を確認した.The detection of anomaly (abnormal/unusual) movements is an important problem in video surveillance applications. We propose an unsupervised method for anomaly movement detection in scenes containing multiple persons. Our method uses cubic higher-order local auto-correlation (CHLAC) to extract movement features. We show that the additive property of CHLAC in combination with a linear eigenspace method is well suited to simplify the learning of usual movements and to detect anomaly movements even in scenes containing multiple persons. One particular advantage of this method is that it does not necessitate the object segmentation and tracking, and also any prior knowledge about objects. Some experimental results are shown to exhibit the validity of the method.
著者
坂上 文彦 尺長健
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.44, no.SIG17(CVIM8), pp.100-108, 2003-12-15

本稿では,照明変動およびノイズに影響されない物体認識を目指す立場から,基本問題として正規化固有空間への部分射影を取り上げ,その最適化法を論じる.ここで,正規化固有空間とは,画像の輝度の総和を一定とする正規化画像空間内に構成される固有空間であり,輝度変化に対して不変であるという特長を持つ.本稿では,まず,問題の定義を与え,解法を論じる.ここで,正規化固有空間の同次表現(同次固有空間)を導入することにより,正規化固有空間への部分射影の最適化(最適部分射影)が同次固有空間への線形射影に帰着できることを示す.最後に公開データベースYale Database B上での認識実験により,同次固有空間を利用した最適部分射影の応用例を示す.本稿で示す最適部分射影はコンピュータビジョンの様々な問題に応用可能であると考えられる.
著者
関 晃仁 奥富 正敏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.45, no.13, pp.1-10, 2004-12-15
参考文献数
13
被引用文献数
12

本論文では,車載ステレオカメラを使った道路平面上の障害物検出手法を提案する.まず,ステレオ動画像を用いて,画像間の射影変換を求めると同時に,空間中の道路平面部分に対応した領域を抽出する.次に射影変換行列を特異値分解することで,抽出した道路平面の法線ベクトルを算出する.その法線ベクトルを利用して入力画像と抽出した平面領域画像を,仮想的に道路平面を上方から見た画像に変換する.その画像を利用して道路平面領域とその時間的変化を求めることにより,空間中での障害物の位置と相対速度の検出を行う.また平面の傾きに対する射影変換行列の収束性に関して検討し,それを元に射影変換行列推定時の初期値を定めることで,処理のロバスト性を向上させている.最後に,車載カメラによる実画像を用いた実験を通じて,本手法の有効性を示す.In this paper, we propose the method for an obstacle detection on the road plane using the stereo cameras mounted on a vehicle. We first estimate planar regions using projective transformation matrix. By singular value decomposition of the matrix, we get the normal vector of the planar regions and the distance from the optical center of the primary camera to the plane. Then, we make a virtual projection plane (VPP) image which is equivalent to the top view of the road scene. Obstacles are detected by checking the change of the planar regions using the VPP image. Finally, we present the experimental results of obstacle detection with our method.
著者
森本 吉春 松井 徹 藤垣 元治
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.47, no.SIG5(CVIM13), pp.10-19, 2006-03-15

形状や変形を計測する方法はすでに多くの方法が開発されているが,高速・高精度で計測できるものは少ない.ここでは各種光学的方法により得られた投影格子や縞画像の位相を利用した方法を紹介する.とくに,3~4枚の画像から矩形波格子や余弦波格子の位相分布が連続的に計測できる積分型位相シフト法,位相シフトした多数の画像の各点の輝度のフーリエ変換により高精度に位相を解析できるフーリエ変換位相シフト法,複数の基準板を用いた高精度形状計測法,位相シフトデジタルホログラフィ干渉法を用いた変位計測法は実時間で計測したり,計算時間が少しかかっても高精度に解析したりすることができる.ここでは著者らが主として開発した計測方法の原理とその適用例を示す.
著者
藤原 孝幸 輿水 大和 藤村 恒太 藤田 悟朗 野口 孔明 石川 猶也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.43, no.4, pp.85-94, 2002-06-15
被引用文献数
4 3

デジタルカメラで撮影した顔画像を全自動で立体的にデジタル化する技術と,3 次元的な顔の特徴点を抽出してデフォルメする技術について提案する.複数のデジタルカメラの通常撮影,シルエット投影撮影とパターン光照射撮影から顔の色彩と凹凸情報を取り込み,自動抽出可能な44 特徴点から構成される82 パッチにより頭部を3 次元モデル化した.顔の3 次元データから目,鼻,口などの部分顔領域を抽出し,その領域から得られる特徴点を用いることで複数の顔画像間での対応が実現できた.そして,複数の顔モデルからデータ間の平均をとった平均顔を基準顔として生成し,それを比較対照として全周3D 似顔絵を生成した.また,この技術を用いた似顔絵のフィギュア製作の可能性を示した.This paper proposes a methodfor modeling 3D face from 2D facial images capturedfrom the surrounding 2D cameras by which the color texture and surface shape information of the face are synchronously measured.And 3D facial caricaturing method is proposed by using the 3D (the polygon data)face model.Automatic method for extracting regions of the facial parts is technically proposed,and the feature points are extracted from those regions.We propose the mesh model composed of 44 feature points and 82 meshes to cover a head.To generate the caricature from this polygon data,the individuality feature is de fined in value by the difference of the feature points between the input face and the mean face,which was de fined from the average of many input faces.And,we proposed the successive method for producing the 3D figure of human facial caricature.
著者
三浦 宏一 浜田 玲子 井手 一郎 坂井 修一 田中 英彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.44, no.9, pp.21-29, 2003-07-15
被引用文献数
14

近年,マルチメディア情報を有効に活用する重要性が増すにつれ,テレビ映像の自動要約に関する研究がさかんに行われつつある.本論文では,料理映像を対象にした自動要約手法を提案し,検討する.我々は料理映像要約の目的を,調理の全体的な流れを視覚的・直感的に理解するのに十分な映像を作成することとしている.要約映像を作成する際には,映像の重要部分を抽出することが必要となるが,料理映像においては,調理動作および料理や食材の状態を示す部分が特に重要である.これらは画像全体の動きの激しさと関連があることから,オプティカルフローによりこれらの重要部分を検出する手法およびカメラワーク(パン)を除去する手法を提案し,評価実験によりその有効性を示した.さらに,この手法によって抽出された重要部分と,調理動作の中でも特に重要な繰返し動作部分から料理映像要約を生成するアプリケーションを実装した.放送局の異なる複数の料理番組に提案手法を適用し,要約映像を自動生成した結果,要約映像は十分に調理手順の内容を保ちつつ,元の映像の1/8 から1/12 の時間に短縮できた.また,自動要約した映像の一部を,番組制作者によって作成された要約映像と比較することにより,本手法の有効性を確認した.Re flecting the increasing importance of handling multimedia data efficiently, many studies are made on automatic abstraction of television broadcast video. In this paper, we propose a method to abstract cooking videos. We de fine cooking video abstraction as shrinking videos maintaining sufficient understandability of general cooking procedures visually and intuitively. To abstract a video, important sub-shot segments need to be extracted from the original video. Important segments in a cooking video are considered as cooking motions and appearances of foods, since visual information that represents essential cooking operation is exceptionally important. These segments have typical motion-related features. Thus,a method to extract such important segments referring to the intensity of motion in the image is proposed. Effectiveness of the method is shown through evaluation experiments. We also implemented an abstracted cooking video browser that assembles important segments detected by the proposed methods and repetitious motions that is especially important among cooking motions. The resultant abstracted videos were about 1/8 to 1/12 of the original videos in time, maintaining the understandability of cooking procedures. And the validity of the abstraction method was checked by comparing some automatic abstracted videos with abstracted videos provided from the broadcaster.
著者
後藤知将 奥富 正敏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.45, no.8, pp.15-25, 2004-06-15
被引用文献数
13

撮像素子を用いた画像センサの物理的分解能の限界を超える高精細画像を生成する方法が研究されてきた.従来の,複数画像から高解像度の画像を合成する超解像法は,主にモノクロ画像を対象としていたため,近年の急速な普及をみる単板カラー撮像素子を用いて高解像度画像を生成する効果的な方法が望まれている.そこで,本論文では単板撮像素子のRAWデータを直接利用し,高解像度カラー画像を生成する手法を提案する.本手法は単板カメラのdemosaicking処理を内包する一般化されたカラー超解像問題の定式化を特徴とする.実験では合成画像と実画像を用いて,提案手法に基づく信号処理の有効性を検証する.The limited resolution of image sensors has motivated the enhancement of image resolution. Super-resolution has been applied mainly to grayscale images, but producing a high-resolution color image using a single-chip imaging device has not been investigated thoroughly. This work aims at producing a high-resolution color image directly from raw data obtained by a single imaging chip employing a color filter array. This method is based on a generalized formulation of super-resolution that simultaneously performs both resolution enhancement and demosaicing. The proposed method is verified through experiments using synthetic and real images.
著者
植芝 俊夫 富田 文明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.44, no.17, pp.89-99, 2003-12-15
参考文献数
18
被引用文献数
9

平面パターンを用いて複数のカメラを同時に校正する新しいアルゴリズムを提案する.これはSturm-Maybank-Zhang による単一カメラのためのキャリブレーション法の拡張であり,2次元位置が既知の参照点を描いたモデル平面を3カ所以上に置いてカメラに提示するだけで,個々のカメラの内部パラメータのみならずカメラ間の位置関係をも推定することができる.モデル平面の動きを知る必要がないという元のアルゴリズムの長所が保存されるので,本手法はステレオビジョンなど複数のカメラから成るシステムを校正する簡便な手段を与える.シミュレーションと実データを用いた実験により提案手法の有効性を示す.A new calibration algorithm for multi-camera systems using a planar reference pattern is proposed. The algorithm is an extension of Sturm-Maybank-Zhang style plane-based calibration technique for use with multiple cameras. Rigid displacements between the cameras are recovered as well as the intrinsic parameters only by capturing with the cameras a model plane with known reference points placed at three or more locations. Thus the algorithm yields a simple calibration means for stereo vision systems with an arbitrary number of cameras while maintaining the handiness and flexibility of the original method. The validity of the proposed technique was verified through simulation and experiments with real data.
著者
佐藤いまり 佐藤洋一 池内 克史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.41, no.10, pp.31-40, 2000-12-15
被引用文献数
15

室内など,一般の照明環境のもとでは,物体からおとされる影は明確な輪郭線を持たないソフトシャドウとして観察される.本報告では,このソフトシャドウ内の明るさ分布を利用することで,実照明の光源分布を推定する手法を提案する.提案される手法では,まず実世界の光源環境を空間的に均等なサンプリング方向の光源輝度の総和として近似する.次に光源輝度分布と画像面に観察されるシャドウの明るさの関係式に基づき,シャドウ内の各画素より各光源サンプリング方向の光源輝度が未知数となるような方程式を導く.最後にシャドウ内の画素より導かれた連立方程式を解くことにより,各サンプリング方向の光源輝度を推定する.このようにして推定された光源輝度分布を用いることにより,実世界と仮想世界の光学的整合性を実現し,違和感なく仮想物体を実画像に重ね込むことが可能となる.In this paper, we propose a new method for estimating the illumination distribution of a real scene from image brightness observed on a real object surface in that scene. More specifically, we recover the illumination distribution of the scene from a radiance distribution inside shadows cast by an object of known shape onto another object surface of known shape and reflectance. The approach employed in this study is as follows. The illumination distribution of a scene is first approximated by discrete sampling of an extended light source; whole distribution is represented as a set of point sources equally distributed in the scene. Then this approximation leads each image pixel inside shadows to provide a linear equation with unknown radiance of those sources. Finally, unknown radiance of each source is solved from the obtained set of equations. By using the occlusion information of the incoming light, we are able to reliably estimate the illumination distribution of a real scene, even in a complex illumination environment. The estimated illumination distribution is then used for rendering virtual objects superimposed onto images of the real scene.
著者
田中 正行 奥富 正敏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.47, no.5, pp.80-89, 2006-03-15
被引用文献数
4

複数の低解像度画像から,1つの高解像度画像を再構成する方法として超解像処理がある.超解像処理では,高解像度画像の低解像度画像に対する倍率が重要なパラメータとなる.本論文では,倍率の設計を容易にする超解像の条件数定理を示す.条件数定理は,低解像度画像数が無限であると仮定したとき,任意のPSF(Point Spread Function)に関する超解像方程式の条件数の算出方法を導く定理である.条件数定理により算出される条件数を比較することにより,高解像度画像の低解像度画像に対する倍率およびPSFを設計することができる.また,本研究では,ML(Maximum Likelihood)法に関しての勾配制約も示す.勾配制約とは,PSFのパワースペクトルがML法の評価関数の微分を制限するというものである.条件数定理と勾配制限は理論的に導かれる.具体的にBox型PSFとGaussian型PSFの解析を示し,また,合成画像を利用した実験によりその有効性を確認する.This study presents and proves a condition number theorem for super-resolution (SR). The SR condition number theorem provides the condition number for an arbitrary space-invariant point spread function (PSF) when using an infinite number of low resolution images. A gradient restriction is also derived for maximum likelihood (ML) method. The gradient restriction is presented as an inequality which shows that the power spectrum of the PSF suppresses the spatial frequency component of the gradient of ML cost function. A Box PSF and a Gaussian PSF are analyzed with the SR condition number theorem. Effects of the gradient restriction on super-resolution results are shown using synthetic images.
著者
横矢 直和 山澤一誠 竹村 治雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.42, no.13, pp.59-70, 2001-12-15
被引用文献数
11

近年,レンズ・ミラー系の組合せによって側方360 度の視野をビデオレートで撮影できる様々な全方位画像センサが開発されるようになってきた.このような全方位ビデオカメラの中でも特に,1 点中心投影の光学特性を有するカメラは,撮影された全方位画像から任意形状のディスプレイ・スクリーン面への透視投影画像を計算によって生成できることから,最終的に人間への画像・映像提示を目的としたメディア応用に適している.本論文では,全方位画像からの任意視線画像の実時間生成による,視覚情報メディアへの全方位ビデオカメラの応用について述べる.具体的には,全方位ビデオカメラHyperOmni Vision を用いて筆者らの研究室で進めてきたテレプレゼンス,代理身体としての移動ロボットの遠隔操縦,およびビデオサーベイランスに関する一連のプロジェクトの概要について述べる.Recently an increasing number of catadioptric video-rate omnidirectional imaging sensors with 360-degree of horizontal view have been developed. Among those omnidirectional video cameras, ones which satisfy the single-viewpoint constraint are suitable for emerging interactive media-oriented applications, because perspective re-projection onto any display or screen sufaces can be computed from captured omnidirectional images. This omnibus paper describes a number of applications of catadioptric omnidirectional video camera HyperOmni Vision to visual information media, especially focussing on our recent activities including telepresence, teleoperation of mobile robot, and video surveillance. All of these applications are based on computing view-dependent perspective images from omnidirectional video streams in real time.
著者
池田 友彦 杉本 晃宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.47, no.10, pp.72-82, 2006-07-15

逐次型の運動推定手法では,運動が長くなると推定誤差が累積し,運動軌跡の推定精度が次第に悪くなるという問題をかかえている.そこで,本稿では,搭載した2台のアクティブカメラそれぞれを注視点制御することによりカメラの自己運動を推定する手法を例にとり,時々刻々に推定されたカメラ運動のパラメータがそれまでの入力画像系列と幾何学的に整合するように局所的にバンドル調整を適用し,推定結果をそのつど修正する手法を提案する.そして,(1)局所的バンドル調整によって統計的に有意に誤差が軽減されること,(2)局所的バンドル調整を3フレームに対して適用すると誤差を最も効果的に軽減することができること,(3)提案手法によって長い運動に対しても安定な運動推定を実現することができること,を実験によって示す.Incremental motion estimation methods involve a problem that estimation accuracy gradually becomes worse as the motion trajectory becomes longer and longer. This is due to accumulation of estimation errors incurred in each estimation step. To keep estimation accuracy stable even for a long trajectory, we propose to locally apply the bundle adjustment to each estimated motion so that the modified estimation becomes geometrically consistent with time-series frames acquired so far. To demonstrate the effectiveness of this approach, we employ an ego-motion estimation method using the binocular fixation control, and show that (i) our modification of estimation is statistically significant; (ii) in order to reduce estimation errors most effectively, three frames are optimal for applying the bundle adjustment; (iii) the proposed method is effective in the real situation, demonstrating drastic improvement of accuracy in estimation for a long motion trajectory.