著者
加藤丈和
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.1, pp.161-168, 2007-01-12
被引用文献数
37

本稿では,非線形,非ガウス型の時系列フィルタリング法である,パーティクルフィルタについて,特にIsardらのCondensation法に代表されるコンピュータビジョンにおける対象追跡への応用に焦点を当て,理論と実装法を概説する.時系列フィルタリングに関する基本的な考えからから,カルマンフィルタなどの線形,ガウス型のフィルタリング手法,パーティクルフィルタによる非線形,非ガウス型への拡張について説明し,具体的な実装例を紹介する.This article introduces the theory and the implementation of Particle Filter that is one of non-liner and non-gaussian filter. This paper explains the basic idea of Filtering of time series, Kalman-Filter that is liner and gaussian filter and Particle Filter. We introduces the implementation of Paticle filter.
著者
和田 俊和
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.93, pp.97-104, 2006-09-08

本サーベイでは 事例に基づくパターン認識 コンピュータビジョンの研究を 異常検出 識別,非線形写像学習,正則化およびこれらの基礎となる最近傍探索技術 確率密度推定に分け これまでの歴史を振り返り 近年の研究動向を分析する.This paper reviews and serveys example based techniques in the fields of Pattern Recognition and Conputer Ⅵsion , from the viewpoints of anormality detection,classification,non-linear mapping learning,regularization,and basics:nearest neighbor search and non-parametric probability density estimation
著者
菅野 理子 本多 庸悟 金子 俊一
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM)
巻号頁・発行日
vol.1993, no.25(1992-CVIM-082), pp.95-102, 1993-03-18

ゴッホやマティスなどの絵画は、それを見れば容易に描いた画家を推測できるような、タッチ(筆触)やマチェール、ヴァルールなどにおける独自の特徴を持っている。本研究は油絵におけるタッチに的をしぼり、タッチを自動的に抽出して、その特徴を定量的に記述することを目的とする。ここでは、タッチが色彩によって抽出できるものとし、人間の色知覚に基づいたマンセル表色系を用い、タッチをその色相に基づく領域として抽出し、実験を行った。研究の過程において、色補正変換を含むRGB/マンセル表色系変換システムも作成して用いた。実験の結果、タッチを色相だけから抽出することの可能性と困難さが示されたが、一応の知見が得られたので報告する。
著者
本谷秀堅 来海暁 安藤 繁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.74, pp.9-16, 1999-09-16
被引用文献数
5

我々の研究室では、画像の特徴量を直接計測することのできる固視微動型イメージセンサを開発している。固視微動型イメージセンサとは、画像を取得する際に微動することにより画像特徴を時間変調し、微動と同期した参照信号による復調により画像特徴を直接計測するセンサである。画像特徴をセンサの微動により変調しているため、量子化誤差を含むこと無く特徴量を計測することができる。また参照信号と無相関なノイズ成分も除去することができる。本稿では、センサを円運動させ、参照信号に三角関数を用いることにより、本センサが画像の微係数を直接計測できることを示す。試作した固視微動型イメージセンサを用いた実験およびシミュレーション実験により、本手法が直接画像微係数を計測できることを確認した。Our laboratory is developing a correlation image sensor which obtains time-domain correlation between an output signal of a photo-detector of the sensor and a reference signal. We proposed a feature extraction method which uses this correlation image sensor. The proposed method modulates the image features by vibrating the image, and demodulates the features with reference signals which synchronized with the sensor vibration. This method extracts image features free from quantized error and from noize which has no correlation with the reference signal. In this paper, we propose a method to extract differential coefficients by vibrating the image circularly and demodulating with trigonometric functions. Experimental results show that the proposed method detects differential coefficients successfully.
著者
岡田 和典
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.27, pp.401-414, 2008-03-11
被引用文献数
4

ミーンシフトは、カーネル密度推定を用いるロバストなデータ解析手法で、福永らによって提唱されたのち最近の Cheng や Comaniciu の定式による広範なビジョン問題への応用成功例が知られている。本稿では、ミーンシフト法の基本原理およびその一般的な特徴と利点を順を追って解説した上で、最近の理論的拡張および画像の領域分割やビデオ上の物体追跡などの実際のビジョン応用例について概説する。Mean shift is a popular robust framework for statistical data analysis using kernel density estimation, originally proposed by Fukunaga and Hostetler in 70's. Recently, due to the work by Cheng and Comaniciu, this method has been re-discovered and successfully applied to a wide range of vision applications. This article provides a comprehensive overview of the basic theory and applications of mean shift, highlighting its practical and theoretical advantages, recent theoretical extensions, as well as vision applications such as image segmentation and object tracking.
著者
岩井 儀雄 勞世竑 山口 修 平山 高嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.38, pp.343-368, 2005-05-13
参考文献数
222
被引用文献数
24

画像処理による顔情報処理に関連した研究について,1)顔検出法 2)イメージベースの顔認識法 3)モデルベースの顔認識法 という観点に基づき最近の動向を紹介する.In this paper, we survey research on facial image processing. We explain the followings: 1) face detection, 2) image-based face recognition, and 3) model-based face recognition.
著者
前田 篤彦 杉山 公造 間瀬 健二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.87, pp.117-124, 2001-09-13

本研究では,体験型科学館に設置されたインタラクティブ・システムに対するユーザの一連の行為をinquiry learningの機会として捉える.本研究の目的は,inquiry learningのための,より効果的なインタラクティブ・システムのインターフェイス・デザインとはどのようなものなのか,実験によって検証することである.そのために,二つの実験を行った.はじめの実験では,inquiry learningにおける学習達成率が容易になる条件ほど,後半時間における探索行為の減少傾向が強くなることが示された.この結果から,ヒューマン・インターフェイスをデザインする際に,探索行為によらない偶発的な学習の機会を考慮する必要性が示唆される.それゆえ,次に入力デバイスの違いによって,偶発的な学習の頻度に差がでるか検証した結果,オルタネイト・スイッチの組み合わせより,モーメンタリ・スイッチ単独によるほうが,偶発的な学習の機会が増やすことがわかった.最後に,この原因として人間の誤動作について考察する.A series of the user's actions on an exhibit of an interactive art and science museum is examined in terms of inquiry learning. The purpose of this study is to discover the more effective human interface design for the inquiry learning. For this purpose, two experiments are conducted. First experiment's results show that the higher the rate of the learning-achievement in the inquiry learning is, the higher significant decrease of the rate of the exploratory behavior in a series of actions in the latter half is. These phenomena imply that the opportunity for not only learning by exploration but also accidental learning should be considered when designing the human interfaces. Next experiment on input devices shows that one momentary switch is superior to a combination of alternate switches in terms of accidental learning. Finally, we discuss the role of behavioral error (micro slips) to accidental learning.
著者
八重樫 恵太 柳井 啓司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.36, pp.15-22, 2008-05-01
被引用文献数
2

今日では、Web 上のデジタル写真の普及、およびマッピングサービスの高度化は目覚ましく、それに伴い位置情報付き写真も増加している。一方で、画像認識の分野においてもより高度な手法が提唱されてきた。位置情報を画像の特徴の1つとして用いることにより、画像認識の精度を向上できる可能性が考えられる。本研究では、位置情報と航空写真を対応する画像の特徴量として用いることによって、画像認識の精度向上の可能性を検討する。画像をキーワードごとに分類し、画像と航空写真からそれぞれ SIFT 特徴を抽出し、位置情報とそれらの特徴量を統合したものの組合わせについて SVM による学習と分類の実験を行う。実験の結果、いくつかのキーワードについて、分類精度の向上が見られた。Because of recent remarkable spread of digital photos and mapping service on the Web, the number of geotagged photos are increasing greatly. Meanwhile, in the research community of image recognition, research on generic object recognition has progressed greatly for these several years. Then, we propose using geolocation as one of features to recognize geotagged images. In this paper, we examine possibility of improvement on generic image recognition by using geolocation and aerial photos as features in addition to image features extracted from images. We collected geotagged images associated with several keywords from Flickr, and extracted feature vectors by the Bag-of-Keypoints method from each image and each associated aerial photo. Next, we combined feature vectors extracted from images and aerial photos into one vector, and we performed experiments on image classification using SVM. As the result, improvements of the classification rate were obtained for some keywords.
著者
加藤丈和
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM)
巻号頁・発行日
vol.2007, no.1(2007-CVIM-157), pp.161-168, 2007-01-12

本稿では,非線形,非ガウス型の時系列フィルタリング法である,パーティクルフィルタについて,特にIsardらのCondensation法に代表されるコンピュータビジョンにおける対象追跡への応用に焦点を当て,理論と実装法を概説する.時系列フィルタリングに関する基本的な考えからから,カルマンフィルタなどの線形,ガウス型のフィルタリング手法,パーティクルフィルタによる非線形,非ガウス型への拡張について説明し,具体的な実装例を紹介する.
著者
金谷健一 松永 力
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.7, pp.49-56, 2000-01-20
被引用文献数
18

2画像の点対応から計算した基礎行列をそれぞれの画像の焦点距離とカメラの運動パラメータとに代数的に閉じた形に分解するアルゴリズムを示す。これはスカラ不変量で表された基本行列の分解可能条件に基づくものである。また解が不定となる退化の条件をすべて解析する。さらに退化が生じた場合に2画像の焦点距離は等しいと仮定して解を求める方法を示し、その場合の退化の条件を調べる。最後にエピ極点を用いるBougnouxの公式を本論文の理論的枠組みから再導出する。We describe an algorithm for decomposing a fundamental matrix computed from point correspondences over two images into the focal lengths of the two images and the camera motion parameters in a closed-form expression in the fundamental matrix. Our algorithm is based on the decomposability condition of the essential matrix expressed in terms of its scalar invariants. We give a complete analysis for degenerate camera configurations. We also describe an algorithm for computing a single focal length in the degenerate case and analyze the indeterminacy condition. Finally, we recapitulate Bougnoux's formula, which describes the focal lengths using the epipoles, in our theoretical framework.
著者
ノジク ヴァンソン 石川 尋代 フランソワドゥソルビエ
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.36, pp.263-286, 2008-05-01

CPU とは異なり GPU でできることは増加し続け,画像処理に対して想定以上の性能を発揮している.実際に GPU は主にコンピュータグラフィックスのアプリケーション用に設計されており,2D テクスチャや 3D 処理を非常に効率よく行うことができる.こういった能力はリアルタイム画像処理やコンピュータビジョンのアプリケーションソフトウェアの速度向上に適している.また,初期のシェーダー言語に比べて,最新版のシェーダー言語はよりいっそう簡単に使用できるようになっている.しかしながら,GPU を効率よく使用するためにはいくつかのシェーダー基礎知識が必要とされている.本稿では画像処理とコンピュータビジョンにおけるシェーダーの使い方の概要を記述する.本稿では,はじめに,コンピュータグラフィックスのレンダリングパイプラインとシェーダーの一般概念を詳細に述べる.この部分は現存するシェーダー言語の概要,特に GLSL の詳細な記述でもある.これらの解説にはシェーダープログラミング,さらに,シェーダーの読み込みとコンパイルに関する部分も含まれる.ここではシェーダーは特別なプログラム設計となっていることを理解することが目的である.次に,画像処理とコンピュータビジョンに関するいくつかの実用的なアプリケーションを提供する.これらの章では特に色操作,幾何的アプリケーション,さらにバーチャルリアリティや一般的な目的のための GPU 使用方法を扱う.そして,最後に,技術的,理論的なアドバイスとともにシェーダーの導入方法を提供する.Contrary to CPU, GPU capability continues to increase and reaches unexpected performances for image processing tasks. Indeed, GPU is mainly designed for computer graphics applications and can deal with 2D texture or 3D operations very efficiently. These abilities are well suited to speed up real-time image processing and computer vision applications. Contrary to the first generations of shaders, the latest shaders languages become more and more easy to use. However, some basic knowledge about shaders is required for an efficient use of the GPU. This paper presents an overview of how to use shaders for image processing and computer vision. The first part details the computer graphics rendering pipeline and shaders generalities. This part also overview the existing shader languages and especially details GLSL. These explanations include shaders programming but also the shader loading and compilation. This part aims to underline that shaders require a specific program design. Then, this paper presents some practical applications related to image processing and computer vision. These sections especially deal with colour manipulation, geometric applications but also with virtual reality and general purpose GPU methods. Finally, this document provides a part on how to start with shaders, including technical and theoretical recommendations.
著者
田中 正行 奥富 正敏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.113, pp.97-104, 2004-11-12
参考文献数
15
被引用文献数
4

複数の低解像度画像よりひとつの高解像度画像を推定する方法として超解像処理がある.広く利用されている再構成型超解像処理では,まず初期の高解像度画像を設定し,そこからカメラモデルに基づき観測画像である低解像度画像の各画素値を推定する.推定された画素値と実際の観測画素値の誤差を最小にするように高解像度画像を更新する.収束するまで更新処理を繰り返すことにより,高解像度画像を求める手法が再構成型超解像処理である.再構成型超解像処理は,高解像度画像の画素の数だけの未知数があることや,一回の更新につき複数の低解像度画像の総画素数分の画素値推定計算が必要であることなどから,計算コストが大きいことが知られている.本研究では,更新ごとに必要な計算コストを低減させることを目的とした高速化アルゴリズムを提案する.提案手法は,高解像度画像空間に離散化点とそれに対応する近傍領域を設定し,その近傍領域内に含まれる複数の観測画素値の平均値を利用し,その平均値と離散化点に対する推定画素値の誤差を最小にする方法である.ある近傍領域に対して,従来法では近傍領域に含まれる観測画素の数の推定計算が必要であるが,提案手法では一回の推定計算ですむ. 合成画像および実画像を使用した実験から,実験条件により異なるが,提案手法は従来法と比較して約1.3?5.0倍の高速化が確認できた.また,推定精度は従来法とほぼ同程度であることも確認できた.A super-resolution process produces a high-resolution image from a set of low-resolution images. Reconstruction-based algorithms to produce the high-resolution image which minimizes the difference between observed images and images estimated from the high-resolution image with a camera model has been developed. The reconstruction-based algorithm requires iterative calculation and large calculation cost because the reconstruction-based super-resolution is a large scale problem. In this report, a fast algorithm for the reconstruction-based super-resolution is newly proposed. The proposed method is to reduce the number of observed pixel value estimations from the high-resolution image, using an average of pixel values in a divide region. Effect of our proposed algorithm is demonstrated with synthetic images and actual images. The results show that the proposed method is about 1.3 - 5.0 times faster than a conventional method.
著者
柳井 啓司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.93, pp.121-134, 2006-09-08
被引用文献数
14

「一般物体認識」とは,制約のない実世界シーンの画像に対して計算機がその中に含まれる物体を一般的な名称で認識することで,コンピュータビジョンの究極の研究課題の一つである.人間は数万種類の対象を認識可能であると言われるが,最近まで計算機はわずか1種類の対象を認識することすら困難であった.ここ数年,新しいモデル表現の提案,機械学習法の進歩,計算機の高速化などにより,急速に研究が発展し,現在は101種類の対象に対して6割程度の精度で認識が可能となってきている.本稿では一般物体認識の現状と今後の展望について解説を行う."Generic object recognition"aims at enabling a computer to recognize objects in images with their category names. It is recognized as one of an ultimate goal of computer vision research. Although human can recognize ten thousands of kinds of objects, it is extremely difficult for a computer to recognize just one kind of objects. For these several years, due to proposal of novel representation of visual models, progress of machine learning methods, and speeding-up of computers, research on generic object recognition has progressed greatly. According to the best result, the 66.23% precision for 101-class recognition has been obtained so far. In this paper, we describe the current state and future directions on generic object recognition.
著者
岩井 儀雄 勞世竑 山口 修 平山 高嗣
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM)
巻号頁・発行日
vol.2005, no.38(2005-CVIM-149), pp.343-368, 2005-05-13

画像処理による顔情報処理に関連した研究について,1)顔検出法 2)イメージベースの顔認識法 3)モデルベースの顔認識法 という観点に基づき最近の動向を紹介する.
著者
辻 正文 鎌田 清一郎 イースン・リチャード 河口 英二
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM)
巻号頁・発行日
vol.1992, no.7, pp.173-180, 1992-01-23

A camera calibration technique plays an important role in the field of robot vision. There are a lot of techniques to this field for several decades. In this paper we present a method for determining the position of a camera using a few target-points. We use 3 rotation angles and translation vector to describe the position of the camera for a pinhole model. In general for solving the 6 unknown parameters a minimum of six target-points in a world coordinate system is required to uniquely define the matrix. However we show that by using the properties of the matrix we can reduce this number to four. Some experimental results of this method using synthetic data and real image data are also shown.A camera calibration technique plays an important role in the field of robot vision. There are a lot of techniques to this field for several decades. In this paper, we present a method for determining the position of a camera using a few target-points. We use 3 rotation angles and translation vector to describe the position of the camera for a pinhole model. In general, for solving the 6 unknown parameters, a minimum of six target-points in a world coordinate system is required to uniquely define the matrix. However, we show that by using the properties of the matrix we can reduce this number to four. Some experimental results of this method using synthetic data and real image data are also shown.
著者
本井 滋 三須 俊彦 中田 洋平 松本 隆 八木 伸行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.1, pp.133-139, 2007-01-12
被引用文献数
2

2007年度中に開始予定のサーバー型放送では,メタデータを利用したサービス提供が検討されている.このような中,映像解析によるイベント検出技術,及び検出されたイベントをメタデータとして映像データに付与する,メタデータ自動付与システムの研究・開発が進められている.本稿は,サッカー映像から抽出した選手位置情報などの特徴量を用い,コーナーキック等の生起を検出するイベント検出法を提案する.これまで,手作業により作成されたルールによるイベント検出法などが提案されてきた.本研究では,イベント検出技術の高度化を目的とし,ベイズ学習に基づく隠れマルコフモデルを適用する.また本稿では,Jリーグ・サッカー試合の映像を用いて,提案アルゴリズムによるイベント検出の可能性を検証する.Home-server-based broadcasting is scheduled to launch by April 2008 in Japan.In the broadcasting, several services with metadata are also planned.Therefore, some researches have been focused on event detection methods and systems to add detected events as metadata to movie data. This paper proposes a novel event detection method with players' positions extracted from movie data of soccer games. In the proposed method, a hidden Markov model with a Bayesian framework is used for automatic event detection, while a conventional method used rules made by hand. The proposed method is tested against movie data set of J-league soccer games.
著者
植芝 俊夫 岡谷 貴之 佐藤 智和
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM)
巻号頁・発行日
vol.2005, no.18(2004-CVIM-148), pp.1-18, 2005-03-03

カメラキャリブレーションについて,特にその幾何学的側面に絞って最近の主要な研究のサーベイを行う.準備として,本稿で必要とされる射影幾何の基礎事項の解説の後,透視投影カメラモデルを導入してその射影空間における振る舞いについて述べる.そして,このモデルに基づくキャリブレーション方法として,参照物体を利用する方法とそれを利用しないセルフキャリブレーションに分類して様々なアルゴリズムを紹介する.さらにバンドル調整による推定パラメータの高精度化に言及し,最後に透視投影に従わないレンズ歪みのモデル化とその校正について述べる.
著者
陳亮 徳田 尚之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.33, pp.9-16, 2000-03-23

この論文では,多CPU協調による大域的最小値を見つける吉田等の9),11)協調的分散処理方式を使って,固定多センサー網による多標的追跡解法に最大充推定法(ML)による計算効率のよい緩和解決を開発した.局所的な緩和解の最小平均二乗誤差計算法に,これまで広く使われていたハンガリ型の割り当てアルゴリズム10),12)の替わりにO(NlogN)という簡単な分類アルゴリズムを持ち込むことにより,計算効率だけでなく,解の安定性も大幅に改良されることを示した.本論文では,標的の最適割り当て行列が,全標的の並び替えた方位ベクトルにより与えられることを証明した.方向・速度とも任意の運動する標的数が8個,12個の場合,それぞれ4個,6個のCPUを使って400MhzのPCで1分以内に計算することが出来た.この解は,全体の最適化問題のなかの一部に最適解が組み込まれているという意味で,Tingiltis of 3),12)の準最適解にあたる.Exploiting a new cooperative decentralized processing scheme of 9), 11) where multiple processors cooperate in finding a global minimum, we have developed a new computationally efficient maximum likelihood (ML)-based relaxation method for mulititarget motion analysis under a fixed networked multisensor environment. The marked improvement in computational efficiency and also in stability is achieved by replacing the well known Hungarian type assignment algorithm of 10), 12) with a much simpler sorting algorithm of O(NlogN) and fusing the result with locally minimized average square errors of the relaxation. We have proved a theorem which asserts that an optimal data assignment matrix can best be given in terms of sorted bearing measuring vectors of targets. Embedding locally an optimal data association algorithm of O(NlogN) into each of Gauss-Newton's downhill iteration loops, our numerical experiments were able to track as many as 8 targets and 12 targets separately within one minute by 400MHZ Dell computer with improved accuracy and efficiency, where all targets are allowed to move in variable directions at varying speeds if 4 and 6 processors are used respectively. The solution we have developed constitutes a suboptimal solution in the sense of 3), 12) because an optimal solution is embedded within part of the entire optimization problem.
著者
森俊二 大津展之
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM)
巻号頁・発行日
vol.1977, no.34(1977-CVIM-015), pp.1-12, 1977-11-22

対象とするパターンの持つ情報がその形にあり、濃度の微妙な変化にはないような比較的単純な場合には、画面全体をまず二値化することが、それに続く処理の簡略化ばかりでなく、対象を切り出す又は強調するという意味においても、非常に重要である。実際、文字読取装置では、二値化が必ずといってよいほど行なわれている。しかし、この問題は最っとも良く利用している文字認識技術の分野では、Bartzの論文以外ほとんど正面から取り上げて議論されていない。一方画像のほうでは、この問題は比較的良く取り上げられて、今まで種々の方法が発表されてきている。多分この様な状況は、文字の場合には、濃淡がはっきりしている対象を選べる事と、第一義的に認識アルゴリズムに研究の興味があるということ、それに実用装置を作る立場からすれば二値化の前処理はできるだけ単純にすませる必要のあった事が原因になっていると思われる。勿論上述の事は一般的傾向を示すもので、郵便番号読取機などは例外である。一方画像のほうは自然に与えられるものが多く、しかも、まず認識の第一ステップとして対象を切り出すということが重要課題となるので、二値化問題は技術的にも学問的にも取り上げられてきたと思われる。しかし文字認識技術の分野でも、認識アルゴリズムがかなりの水準に達してきて、それと共に必然的にかなり自由な対象を処理する事が要求されるようになった。また使用用紙にしても必ずしもOCR用紙でなく上質紙の使用がユーザーから要求されるようになってきた。この様な背景から、一番最初に問題になった二値化の問題に回帰する必要に迫られたのである。しかし再びこの問題に帰って見ると、それは認識の本質的問題と深いかかわりあいを持ち困難な問題である事があらためて認識させられる。以下、文字、画像データ(線図形)を対象として、二値化問題を認識問題として見直し、今まで開発された手法を含めて、二値化手法の総括的な検討を試みる。
著者
瀬川 英吾 塩原 守人 佐々木 繁
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM)
巻号頁・発行日
vol.1994, no.104, pp.47-54, 1994-11-24

概要動画像処理システムISHTARを用いて、日照変化や影などの環境変化のある高速道路でも車両の通過台数と速度がリアルタイムに計測できるシステムを開発した。日照変化への対処には、車両に多く含まれる水平線のエッジ数によって日照変化を定量化し、エッジ数の変動の影響が少ない車両検出を実現した。また,車両以外の影や車のライトへの対処には,それらの内部にエッジが少ないことを利用して車両認識を行った。ISHTARに本手法を搭載し、昼夜の高速道路画像に対して実験を行ったところ、目視の結果と比べ通過台数では96%以上の認識精度が得られた。速度では、本手法を解析した結果、90%以上の認識精度であることがわかった。We developed real-time traffic flow measuring system using ISHTAR. ISHTAR is a time-varying image processor which we had developed. The purpose of this system is to count the passing cars and to calculate the speed of them under the inconstant condition in real-time. In order to accomplish this purpose we detect cars based on the number of the edge points on the horizontal line which a car usually has. And we can exclude the shadow because there are not edge points inside it. We evaluated this system using the images taken at a highway and the accuracy of the number of cars is better than 96%. And theoretically the accuracy of the speed is better than 90%.