著者
三井 相和 山内 悠嗣 藤吉 弘亘
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J92-D, no.9, pp.1591-1601, 2009-09-01

本論文では,複数のHistograms of Oriented Gradients(HOG)特徴量を2段階に構築したBoostingにより組み合わせたJoint特徴量による特定対象(例えば人や車両)の物体検出法を提案する.近年,統計的学習手法と局所領域より得られるlow-level特徴量を組み合わせた物体検出法に関する研究が多く取り組まれている.本手法では,複数のlow-level特徴量であるHOG特徴量をReal AdaBoostにより組み合わせることでJoint特徴量を自動生成する.Joint特徴量は,複数のセル間のHOG特徴量の共起を表現し,1段階目のReal AdaBoostにより組み合わせる.このため,単一のHOG特徴量のみではとらえることのできない物体の対称的な形状や連続的なエッジをとらえることが可能となる.次に,生成されたJoint特徴量のプールを入力とした2段階目のReal AdaBoostによって最終識別器を構築する.これにより,識別に有効なJoint特徴量のみを選択するため,高精度な検出が可能となる.本論文では,提案手法の有効性を確認するために,検出対象を人と車両として,評価実験により提案手法の有効性を示す.また,提案手法ではHOG特徴量同士のみでなく異なるlow-level特徴量間での組合せも可能である.本論文では,歩行者のアピアランスを表すHOG特徴量と,動きを表す時空間特徴であるPSA特徴量との共起を表現することで,効果的な識別器を構築することが可能となることを示す.
著者
松島 千佳 山内 悠嗣 山下 隆義 藤吉 弘亘
雑誌
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻号頁・発行日
vol.2009-CVIM-167, no.32, pp.1-8, 2009-06-02

本稿では,人検出のための Real AdaBoost に基づく HOG 特徴量の効率的な削減法を提案する.提案手法は,人検出において用いられる HOG 特徴量をバイナリパターン化することにより,特徴量数の削減を行い,必要なメモリ量を抑制することが可能となる.しかし,バイナリパターン化することにより,識別時に用いる確率密度分布が疎になる問題が発生する.そこで,学習時に Real AdaBoost を用いてバイナリパターンの統合を行い,密な確率密度分布を作成する.提案手法の有効性を確認するために,人の識別実験と処理に必要なメモリ量の比較を行う.その結果,HOG 特徴量と同程度の識別精度を維持し,処理に必要なメモリ量を削減することができた.
著者
藤吉 弘亘 梅崎 太造 今村 友彦 金出 武雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.80, no.6, pp.1627-1634, 1997-06-25
被引用文献数
19

本論文では, ナンバープレートの重心位置を出力するように学習させたニューラルネットワークを使用して, プレート領域を抽出する方法を提案し, その有効性を示す. 学習パターンの提示位置は, 乱数で与えられるため, 毎回異なるパターンがニューラルネットワークに学習され, 汎化能力の高いニューラルネットが形成される. 学習パターン中に含まれるナンバープレートの最適学習面積, バンパーとヘッドライト部分の抑制学習による効果, および学習パターンの拡大縮小と濃度値変換による効果について検討する. 地下駐車場で撮影された595台の車に対して評価実験を行った結果, それぞれ98.5%, 98.7%および100%の検出率を得た.
著者
清水 彰一 西尾 和晃 木村 誠 藤吉 弘亘
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.11, pp.1909-1918, 2011-11-01

人の行動意図を認識しようとするFirst Person Visionでは,人の状態とその人が何を見ているのかという情報が必要となる.そこで我々は,人の眼球と人の視界映像を同時に取得するInside-Outカメラを提案し,そのカメラの構成を活かした注視点の推定法も提案する.Inside-Outカメラはハーフミラーを介して眼球を正面から,視界映像を眼球と同等の位置から撮影することができる.Inside-Outカメラでは,眼球を撮影した画像から得られる視線ベクトルと視界を撮影した画像から得られる注視点位置の関係を変換式で表すことが可能である.そのため,変換式のパラメータをあらかじめ推定することにより,視線ベクトルから注視点を推定する.評価実験では,指標を注視した際の両眼,両視界映像を撮影し,視界画像の指標位置を真値として視線ベクトルから推定された注視点との誤差を算出した.評価実験から視野角において約1.5度の平均誤差で注視点を推定可能であることを確認した.人間は1点を注視しているとき,注視箇所だけではなく視野角で約2度の範囲がはっきり見えていることが報告されていることから,この範囲を評価基準とすると,提案手法は,十分な精度をもつことが分かる.
著者
藤吉 弘亘
出版者
一般社団法人映像情報メディア学会
雑誌
映像情報メディア学会技術報告 (ISSN:13426893)
巻号頁・発行日
vol.32, no.35, pp.113-120, 2008-08-21
参考文献数
24

インビジブルロボットは,環境に配置されたカメラ等のセンサ群から刻々と変化する人の状態を認識し,ユーザである人に対して快適な空間をアシストすることが重要な課題である.このようなインビジブルロボットの実現には,特に,人画像解析(People Image Analysis)として,動画像からの人の検出,追跡,顔の検出,顔の部位の追跡,モーション理解が不可欠な技術要素となる.現在までに,固定カメラによる背景差分に基づく人等を対象とした動体検出法は数多く提案されているが,このような動体検出をベースとしたアプローチでは,対象とする動体の検出に失敗すると次段の処理である物体識別が不可能となる問題がある.この問題を解決するアプローチとして,近年のコンピュータの高速化に伴い,画像全体を検出ウィンドウによってラスタスキャンし,low-levelな特徴量と統計的学習手法の組み合わせによる物体検出法が提案されている.本稿では,インビジブルロボットのためのビデオ解析として,VSAMプロジェクトで開発された動画像理解アルゴリズムと,その実用化例について紹介する.また,人画像解析のための新しいアプローチとして,検出ウィンドウのラスタスキャンベースによる人検出法とモーション解析についても紹介する.
著者
西 貴行 藤吉 弘亘 梅崎 太造
出版者
The Institute of Electrical Engineers of Japan
雑誌
電気学会論文誌. C, 電子・情報・システム部門誌 = The transactions of the Institute of Electrical Engineers of Japan. C, A publication of Electronics, Information and System Society (ISSN:03854221)
巻号頁・発行日
vol.124, no.12, pp.2433-2438, 2004-12-01

In archiving video for surveillance, frame-based coding has been used and it makes storage size large because the whole image is stored even if there is no object in the image. On the other hand, object-based coding has the capability to make storage size small, because it distinguishes between the foreground and the background regions of the image, and stores only foreground objects such as people. This paper describes object-based coding by pixel state analysis. In our method, pixel state analysis detects the foreground objects and background regions in video frames. Furthermore, it distinguishes foreground object pixels as <i>stationary</i> or <i>transient</i> pixels. For <i>stationary</i> pixels, it is possible to restore the color intensity by refering to the same pixel location in the last frame. Therefore, our method makes the storage size smaller. Additionally, the <i>transient</i> pixels of foreground objects are compressed using LZH codec. Since LZH codec uses lossless compression, the object region can be compressed with lesser loss in image quality. We have evaluated our method over 9 test sequences and obtained an improvement of 15% in compression ratio and better quality for the moving parts of the object region compared to MPEG-4.
著者
篠木 雄大 藤吉 弘亘
出版者
一般社団法人映像情報メディア学会
雑誌
映像情報メディア学会誌 : 映像情報メディア (ISSN:13426907)
巻号頁・発行日
vol.63, no.2, pp.209-215, 2009-02-01
被引用文献数
1

Personal video sharing services such as YouTube have become popular because videos can easily be recorded in high-definition (HD) using a personal camcorder. However, it is difficult to broadcast an HD video via the Internet due to the large amount of data involved. We describe a method for generating videos with virtual camerawork based on object tracking technology. Once the user specifies the positions of the region of interest (ROI) on keyframes, our method can be used to generate virtual camerawork between two keyframes in a row based on the results of bi-directional tracking. We evaluated our method with subjective experiments that demonstrate its effectiveness.
著者
都築 勇司 藤吉 弘亘 金出 武雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.1, pp.101-108, 2007-01-12
被引用文献数
23

本稿では,特徴点追跡法について述べる.提案手法は,回転・スケール変化・照明変化による画像の変化に不変なSIFT(Scale Invariant Feature Transform)特徴量を用い,Mean-Shift探索により追跡を行う.評価実験により,回転やスケール変化を含む対象物体の移動に対しても追跡可能であることを確認した.また,追跡結果の表現法として,追跡点をセグメンテーションすることなく動線を表現する方法について述べる.点の移動方向と密度により表示する色を決めることで,移動の方向と頻度を表現する.本手法により,長時間に及ぶ人の追跡結果をビジュアライゼーションし,移動の流れが表現されていることを示す.This paper presents a method of point feature tracking using SIFT(Scale Invariant Feature Transform).Our approach uses the Mean-Shift searching to track a point based on the information obtained by SIFT. Since the SIFT feature is invariant to changes caused by the rotation, scaling, and illumination, we can obtain higher tracking performance than the conventional approach. Using the trajectory of the points obtained by the proposed method, it is possible to visualize the traffic line of pedestrians.
著者
永橋 知行 藤吉 弘亘 金出 武雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.51, pp.69-74, 2006-05-18

従来、物体識別には形状やテクスチャ情報に基づく特徴が識別器への入力として用いられている。これらの入力特徴は、物体領域全体を大局的に捉えたものであり、その物体の構造情報は用いられていない。そこで、本稿では混合正規分布モデルを用いて記述した物体の構造パターンに基づく識別法を提案する。本手法は、検出された物体領域に混合正規分布モデルを当てはめ領域分割を行う。分割後の各領域から求めたテクスチャと形状に基づく特徴量をノード、2つの正規分布間の距離をエッジとするグラフを作成する。各クラスの参照グラフと入力グラフとの距離を算出し、kNN法を用いて移動体を自動車/人/複数の人/二輪車に識別する。評価実験の結果、全体から得られる特徴量に構造情報を加えることで、識別率を向上させることができた。Current feature-based object type classification methods use texture and shape based information derived from image patches. Generally, input features such as aspect ratio are derived from some rough characteristics of the entire object. However, we derive input features from parts-based representation of the object. In this paper, we propose a method to distinguish object types using structure-based features described by a mixture of Gaussian distribution. Our approach uses the Gaussian fitting onto object image to segment into several sub-regions, each of which is related to a physical part of the object. We model the object as a graph, where the nodes contain texture and shape information obtained from the corresponding segmented regions, and the edges contain the distance information between two connected regions. Calculating the distance of the reference graph and the input graph, we can classify an object into single-human/human-group/vehicle/bike using k-NN based classifier. We demonstrate that we can obtain higher classification performance when we use both conventional features and structure-based features compared to using only conventional features or only structure-based features.