文献一覧: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (雑誌)

3 0 0 0 新聞画像アーカイブのための画像処理技術の研究(テーマセッション,文字・文書の認識と理解)

著者: 島貴宏寺沢憲吾川嶋稔夫
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.110, no.467, pp.1-6, 2011-03-03
参考文献数: 5

古い活字文書に対する画像同士の比較による全文検索技術が研究されている.全文検索にあたってはあらかじめ文字切り出しがなされていることが望ましいが,古い活字文書は現代の文書とは異なる特性を持っており,市販OCRソフトウェアでは高精度な文字切り出しが行えない.そこで本研究では,明治期の新聞画像に対する全文検索のため,高精度な文字切り出しを行うための画像処理技術について研究する.精度低下を招く要因として考えられる罫線・ノイズ・ルビを除去する手法を提案し,高精度化を図る.また,市販OCRソフトウェアでは古い活字文書に対するレイアウト解析に限界があるため,あらかじめ行切り出しを行うことでそれを助ける.実験の結果,文字切り出しの精度を約92%まで向上させることができた.

https://ci.nii.ac.jp/naid/110008690108

3 0 0 0 輪郭線及びテクスチャ情報に基づく画像認識法 : 魚画像認識への応用

著者: 平岡透矢野啓司瀧山龍三
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解
巻号頁・発行日: vol.96, no.492, pp.55-62, 1997-01-24
被引用文献数: 6 3

画像の輪郭線及びテクスチャ情報は, 画像認識においてしばしば単独で用いられるが, これら2つの情報を同時に用いればより効果的な認識が期待できる. 本稿では, 輪郭線情報としてP型記述子のパワースペクトルを, テクスチャ情報としては濃度共起行列から作られる行列の要素を用い, これらを統合し, 拡大・縮小, 平行移動, ある角度の回転に関し不変な画像の識別法を述べるユークリッド距離とニューラルネットワークをそれぞれ用いて識別実験を行い, 輪郭線及びテクスチャ情報を単独で用いた場合とそれらを統合した場合とを比較する. 特に認識対象として魚画像を取り上げる.

https://ci.nii.ac.jp/naid/110003274629

3 0 0 0 文字誤認識の傾向を考慮したスペルチェッカーによる単語認識の精度向上(テーマセッション,文字・文書の認識と理解)

著者: 浅田伸彦岩村雅一黄瀬浩一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.110, no.467, pp.183-188, 2011-03-03

本稿では,環境中のあらゆる文字・単語を認識する「全方位認識」の実現のために,厳しい射影歪みに対応する手法について検討する.我々は実時間認識可能,レイアウトフリー,射影歪みに頑健といった3つの要件を満たすカメラベースの単語認識手法を提案している.この手法は斜め45度から撮影した文字を認識できる頑健さを持つが,前述の全方位認識に際しては,射影歪みに対する更なる頑健性が求められる.そこで本稿では,前述の単語認識手法の文字認識誤りをオープンソースのスペルチェッカであるGNU Aspellを利用して補正する.その際,Aspellが持つ音素の類似性に基づくMetaphoneという仕組みを文字誤認識傾向に基くMetashapeに置き換える.提案手法を用いて実験を行った結果,文字が書かれた紙面に対して撮影角度が20度のときに単語認識精度には最大で約24%から約74%の向上が見られた.

2012-10-16 19:45:11
3 + 5 Twitter

https://ci.nii.ac.jp/naid/110008690139

3 0 0 0 複比とハッシュに基づく文書画像検索(文書・文字メディアの認識・理解, 一般)

著者: 中居友弘黄瀬浩一岩村雅一松本啓之亮
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.104, no.742, pp.103-108, 2005-03-11
被引用文献数: 1

本稿では, デジタルカメラを用いた新しい文書画像検索手法を提案する.提案手法は, デジタルカメラで撮影した文書画像の一部あるいは全部を検索質問として, それを含む文書画像をデータベースから検索するものである.これを実現するためには, 撮影時に生じる射影変換歪みに対処しつつ, 部分的な手がかりでも柔軟に照合する必要がある.この問題に対して, 提案手法では, (1)射影変換の不変量である複比を用いたインデックス付け, (2)ハッシュを用いた投票処理の2特徴により対処する.高解像度デジタルカメラと携帯電話付属のデジタルカメラで撮影した画像を用いた実験により, 提案手法の有効性を検証する.

https://ci.nii.ac.jp/naid/110003275766

3 0 0 0 検索エンジンのランキングにおける日本語版ウィキペディアの影響力(テーマ,膨大なデータから学ぶもの)

著者: 曽根広哲吉田泰明平手勇宇山名早人
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.108, no.94, pp.89-94, 2008-06-12
被引用文献数: 1

検索エンジンはインターネットで情報を探す手段として欠くことができない.また,ユーザは検索エンジンの検索結果から得られる情報はテレビからの情報とほぼ同等の信頼性があると認知しているという調査報告がある.すなわち,検索エンジンのランキングを調べることによって,あるサイトが社会に与える影響力の一端を把握できると考えられる.本稿では,今やインターネット上の百科事典の代名詞ともなったウィキペディアが社会に与える影響力を調べることを目的として,日本語版ウィキペディアの検索エンジンにおけるランキング解析を行った.実験の結果,全記事のうち,上位10位以内にランキングされた記事はYahoo! JAPANとGoogleでは約9割,MSNでは約7割となった.また,Yahoo! JAPAN,MSNともに,ウィキペディアの新規記事は「はてなダイアリーキーワード」と比べ,最初から上位10位以内に現れる傾向が強く,上位のランキングを維持する傾向があることが分かった.以上のようにウィキペディアの影響力は大きいものであるということが実験結果から確認できた.

2011-12-30 13:02:48
1 Delicious
2 + 1 Twitter

https://ci.nii.ac.jp/naid/110006951817

3 0 0 0 映像処理評価用映像データベースについて

著者: 馬場口登栄藤稔佐藤真一安達淳阿久津明人有木康雄越後富夫柴田正啓全柄東中村裕一美濃導彦松山隆司
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.102, no.155, pp.69-74, 2002-06-20
被引用文献数: 35

電子情報通信学会パターン認識・メディア理解研究会の下で検討,作成した映像処理評価用映像データベース(VDB:Video Data Base)について述べる.このデータベースは編集効果(シーン切替),カメラワーク,テロップの出現,音声品質という点においてテレビ放送に匹敵する品質の素材映像をもち,ニュース,ドラマ,ドキュメンタリー,情報番組(料理,観光)などのジャンルの映像からなる.また,ショット境界やシナリオ情報をMPEG7形式のメタデータとして付与している.各種の映像処理アルゴリズムを比較評価するためのベンチマークデータとして利用されることが期待される.

https://ci.nii.ac.jp/naid/110003275558

3 0 0 0 ウェアラブルによる長時間個人体験記録の編集 : 脳波を利用した映像の自動編集の試み

著者: 石島健一郎相澤清晴
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.100, no.565, pp.85-92, 2001-01-11
被引用文献数: 2

著者らは, センシングデバイスと情報処理機器の小型化が進み、ウェアラブルなビデオ機器により個人の人生をそのまま記録することが可能になると考えており、映像と同期して記録した脳波を解析することで精度良く興味映像を抽出しうる手法を提案してきた。本稿では、脳波の時系列特性に基づいた解析手法により、意味のあるまとまりとしてのシーンを生成しうることを示す。

2010-08-25 06:48:49
3 + 0 Twitter

https://ci.nii.ac.jp/naid/110003275234

3 0 0 0 IE2000-23 / PRMU2000-48 / MVE2000-52 個人体験映像の構造化と要約 : 生体情報を用いた映像要約によるライフメディア

著者: 石島健一郎椎名誠相澤清晴
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.100, no.181, pp.51-58, 2000-07-06
被引用文献数: 5

著者らは、センシングデバイスと情報処理機器の小型化が進み、ウェアラブルなビデオ機器により個人の人生をそのまま記録することが可能になると考えている。本稿では、このウェアラブル機器で記録した個人体験映像の要約と構造化について論じる。特に、映像と同期記録した脳波による要約実験を示し、精度良く興味映像を抽出しうる事を示す。

2010-08-25 06:48:49
3 + 0 Twitter

https://ci.nii.ac.jp/naid/110003275098

3 0 0 0 隣接文字間の変形の依存性を考慮した連続HMM手書き単語認識

著者: 越仲孝文西脇大輔山田敬嗣
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.99, no.649, pp.45-52, 2000-02-22

筆記体英字列における文字同士の変形の依存関係や, ブロック体英字列および数字列における筆者間変動のような, 文字列中の文字の変形の相互依存関係を記述するため, 連続隠れマルコフモデル(HMM)の各状態に文字パタンの確率密度関数を配置した, 文字パターンのbigramモデルを提案する.提案するモデルでは, 文字パタン同士の連接の起こりやすさを状態遷移確率で表すことにより, 文字列中の他の文字パタンの形状も考慮した文字認識が可能となる.数字列データに対する認識実験では, 従来手法と比較していくらかの性能改善がみられた.また, 文字列中の文字を認識する際に, その直前の文字の形状を考慮する本手法の特性を生かした筆者適応効果が確認された.

https://ci.nii.ac.jp/naid/110003275022

3 0 0 0 Webカメラを用いた多言語文書画像のリアルタイム検索システム(テーマセッション4,複合現実感のためのパターン認識・理解)

著者: 中居友弘黄瀬浩一岩村雅一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.108, no.432, pp.115-120, 2009-02-12
被引用文献数: 2

本稿では,さまざまな言語で書かれた文書画像のリアルタイム検索法を提案する.これは,Webカメラで撮影された文書画像を検索質問とし,データベースから元となった文書画像をリアルタイムで検索して提示するものである.我々はすでに英語文書を対象とした文書画像検索法を提案しており,これは従来手法をさまざまな言語の文書に適用できるよう拡張したものである.従来手法である英語文書画像検索法では,画像処理によって得られる単語領域の重心を特徴点としていた.しかし,日本語や中国語を含むいくつかの言語では,言語の特性上識別性の高い特徴点を安定的に得ることが難しい.提案手法では,記述子の追加によってさまざまな言語の文書における高精度なリアルタイム文書画像検索を実現する.

https://ci.nii.ac.jp/naid/110007132185

3 0 0 0 大規模位置情報付き画像データベースを用いた特定単語に対する世界各地の代表的な画像の発見(一般セッション4,移動カメラ画像処理におけるパターン認識とメディア理解)

著者: 邱炳瑜柳井啓司
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.108, no.363, pp.177-182, 2008-12-11

Flickrのジオタグ(位置情報タグ)付き画像を用いて,ある特定の対象Xについて,世界の各地域の代表的なX画像を表示するシステムを実現する.まず,ユーザが指定したキーワードでFlickrから約2000枚のジオタグ画像を収集し,それからノイズ画像を除去して,画像特徴および位置で分類する.実験では,例えば「noodle」というキーワードに対して,代表的な画像として日本ではラーメン画像,東南アジアではビーフン風の麺の画像,ヨーロッパではスパゲティーの画像が,各地域の代表的画像として抽出され,世界各地の様々な「noodle」について知識を深めることが可能となる.

https://ci.nii.ac.jp/naid/110007123774

3 0 0 0 一般物体認識のための物体領域の抽出手法に関する研究(テーマ関連セッション1,コンピュータビジョンとパターン認識のための学習理論)

著者: 伊東靖簡猿田和樹寺田裕樹武田和時
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.108, no.484, pp.13-18, 2009-03-06

一般物体認識とは,実世界シーンの画像を一般名称で認識する技術である。本研究では,画像中からクラスに関係なく物体領域を抽出する手法を提案する。提案手法は,学習プロセスにおいて,物体のクラスを認識する識別器だけでなく,入力画像に対して物体領域と非物体領域を判定・検出する検出器を生成する。標準評価画像データセットを対象にした認識実験において,提案手法の検出精度と認識精度の性能評価を行い,従来手法と同等の認識精度を得ることで提案手法の有効性を確認した。

https://ci.nii.ac.jp/naid/110007327192

3 0 0 0 カメラ付き携帯電話を入力デバイスとした大規模画像認識(一般セッション5,コンピュータビジョンとパターン認識のための学習理論)

著者: 野口和人氏原慎弥黄瀬浩一岩村雅一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.108, no.484, pp.205-210, 2009-03-06
被引用文献数: 1

カメラ付き携帯電話を入力デバイスとした画像認識では,撮影した画像のぶれやぼけが認識精度低下の原因となる.そのため,ぶれやぼけに対処する手法が重要となる.本稿では,局所特徴量の近似最近傍探索による認識手法に対して,原画像に様々がぶれやぼけを与えた画像を生成し学習する生成型学習を導入することによって対処する.生成型学習を導入するにあたって問題となるのは,学習データの増加にともなって最近傍探索に必要なメモリ量と処理時間が増大することである.これは,特に大規模なデータベースを用いた場合に問題となる.提案手法では,多段階化とスカラー量子化によってこれを解決する.1万枚の画像データベースを用いた実験の結果,生成型学習を用いない手法と比べて認識率が12.3%向上することがわかった.

https://ci.nii.ac.jp/naid/110007327140

3 0 0 0 Multiple Kernel Learningを用いた食べ物画像の分類(テーマ関連セッション2,コンピュータビジョンとパターン認識のための学習理論)

著者: 上東太一柳井啓司
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.108, no.484, pp.83-90, 2009-03-06
被引用文献数: 3

近年,食事に関する健康管理が注目され,より簡単に食事内容が記録できるシステムが望まれている.そこで,本研究では,画像認識技術を用いて食事内容を記録するシステムを提案する.画像認識手法として,最新の機械学習の手法であるMultiple Kernel Learning(MKL)を用いて,局所特徴,色特徴,テクスチャ特徴などの複数種類の画像特徴を統合して,高精度な認識を実現することを提案する.MKLを用いることにより,カテゴリ毎に認識に有効な画像特徴を自動的に推定し,各特徴に対して最適な重みを学習することが可能となる.それに加え,本研究では,提案した食事画像認識手法を組み込んだ食べ物画像認識システムのプロトタイプを実装した.実験では,50種類の食べ物画像データセットを構築し,提案手法の評価を行ない,平均分類率61.34%を達成した.50種類もの大規模な食事画像の分類は,実用的な精度で実現することが困難であったため報告例がないが,本研究ではMKLによる特徴統合を行なう提案手法によって,初めて大規模食事画像分類において高い認識精度を達成することができた.

https://ci.nii.ac.jp/naid/110007327176

3 0 0 0 球面カメラのエピポーラ幾何学とその計算(PRMU一般, データ工学とメディア理解との融合)

著者: 藤木淳赤穂昭太郎
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.105, no.119, pp.41-46, 2005-06-10
被引用文献数: 3

複数の2次元画像からカメラ運動と対象物体の立体形状を同時に復元する問題はコンピュータビジョンにおいて基本的かつ重要な問題であり, その復元において複数の画像間に成立する幾何学, 特に2枚の画像の間に成立するエピポーラ幾何学を知ることは, コンピュータビジョンの理論を理解するために不可欠である.一方, 近年, 監視システムやロボットナビゲーション等への応用が期待される全方位カメラを用いたコンピュータビジョンが脚光を浴びており, 複数の全方位画像間に成立する幾何学の重要性が増している.本稿では, 全方位カメラの一つである球面カメラに着目し, 2枚の球面カメラ画像の間に成立するエピポーラ幾何の新しい計算法を提案する.そして提案手法の有効性をシミュレーションにより確認する.

2009-03-05 19:50:02
3 はてなブックマーク

https://ci.nii.ac.jp/naid/10016576306

3 0 0 0 計量アフィン射影モデルのエピポーラ幾何学

著者: 藤木淳
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.102, no.531, pp.55-60, 2002-12-12
被引用文献数: 1

点対応を用いた複数のアフィン射影画像からの運動と形状の復元は基本的かつ重要な問題である.本稿では,この問題が球面3角形の復元問題であることをエピポーラ幾何学を通して示し,かつ新しい復元手法を提案する.

2009-03-05 19:49:40
3 はてなブックマーク

https://ci.nii.ac.jp/naid/110003273632

3 0 0 0 画像・単語間概念対応の確率構造学習を利用した超高速画像認識・検索方法(パターン認識・メディア理解のための学習理論とその周辺)

著者: 中山英樹原田達也國吉康夫大津展之
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.107, no.384, pp.65-70, 2007-12-06
被引用文献数: 5

画像アノテーション・リトリーバルは,インターネットにおける検索をはじめとする幅広い応用が期待できる技術である.しかし,対象とする画像や認識対象が一般的なものであるため,極めて難しい課題であり,既存技術は精度・速度の両面において難を抱える.本研究では,高次局所自己相関特徴と確率的正準相関分析の組み合わせにより,画像・単語間の概念を効率よく学習することで,従来の世界最高精度の手法とされるSML[1]に比し,精度・速度の両面で圧倒的な向上を実現した.特筆すべきは,認識速度において最高で約1万倍の向上を果たしている点であり,本手法は認識精度と同時に高い汎用性・実用性を有する.

https://ci.nii.ac.jp/naid/110006549347

2 0 0 0 雑談音声の常時認識による楽曲提案システム(一般セッション,福祉と見守りのための画像・音声処理)

著者: 大橋宏正北岡教英原直武田一哉
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.110, no.219, pp.59-64, 2010-10-01

音声を連続音声認識システムにより常時認識することによって得られる認識単語列からその場の雰囲気に適切な音楽・楽曲を提案し,再生するシステムを構築した.楽曲を説明するテキストより構築された文書ベクトル空間と,楽曲の音響特徴量を表現する音響ベクトル空間の対応付けを利用することで,大語彙音声認識によって得られた音声認識単語列を音響ベクトル空間へとマッピングする.また,大語彙音声認識ではカバーできない固有名詞などのキーワードをワードスポッティングで認識する.本稿ではシステムの概要と基本的な性能評価の結果と実際の雑談音声への応用に向けた予備実験結果を示す.楽曲のレビューを読み上げた音声を認識した結果による楽曲検索結果と,レビューのテキストを用いた結果との比較により,テキストではMRR値1で検索できたものが,音声認識性能はWER70.55%,ワードスポッティング性能はF値31.58%でもMRR値0.83と比較的良い結果を得た.また,今後の雑談認識の応用の予備的実験を行い,雑談書き起こしからの例を示した.

https://ci.nii.ac.jp/naid/110008106620

2 0 0 0 学術論文読解における批判的思考研究

著者: 沖林洋平
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.103, no.659, pp.31-35, 2004-02-13
参考文献数: 37

本稿では,まず認知心理学領域における批判的思考研究を概観する。近年の研究において,批判的思考に関する定義の統一はなされていない。さらに,批判的思考の領域固有性について注目した研究はほとんどなされていない。本稿では,文章理解過程における批判的思考の役割について検討する。特に,読み手の文章内容に対する期有知識量と批判的思考を適用した読解能力との関係に注目する。最後に,文章読解を課題に設定した批判的思考力の測定に関する実験デザインを提案する。

2020-08-24 09:45:51
1 + 0 Twitter
1 + 2 Wikipedia

https://ci.nii.ac.jp/naid/110003273946

2 0 0 0 祇園祭バーチャル山鉾巡行(MR/ARの実用化に向けたCV/PR技術の課題と展望)

著者: 崔雄西浦敬信矢野桂司八村広三郎
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.110, no.381, pp.365-370, 2011-01-13

本研究では,バーチャル・へリテージ研究の一環として,京都祇園祭りの山鉾巡行の様子をバーチャルに再現することを試みた.ここでは,京都の街路モデルには「バーチャル京都」の成果を利用し,その上に,4基の山と鉾を配置し,さらに,この中の一つの鉾(船鉾)の曳方,音頭取り,車方などの巡行関係者の人物モデルとそのアニメーションを付与した.また,巡行当日,世界中から集まる観客に関しても,それぞれアニメーションをつけたものとして,街路上に配置した.音響についても,実際の囃子や観客の話声などの音場を記録し,これを3D映像に付与している.これらは,リアルタイム・インタラクティブなコンテンツとして再現し,20人の被験者による評価実験も行い,良好な結果を得た.現状では,実際の山鉾巡行の規模には遠く及ばないが,今後さらに多くの山と鉾,また観客や巡行関係者の数を増やし,また,解説等のリンクを付与していくことを考えている.また,鉾の上の囃子舞台の上に乗って,巡行時の揺れや振動を仮想体験できるようなシステムを構築することも計画している.

2020-06-21 15:09:40
2 + 0 Twitter

https://ci.nii.ac.jp/naid/110008675812