著者
皆川 明洋 藤井 勇作 武部 浩明 藤本 克仁
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.106, no.301, pp.17-22, 2006-10-13
被引用文献数
4

内容が共通する未知フォーマットの帳票画像から対象データを抽出する方式として、帳票上の文字列の意味とそれらの関係を表す論理構造を認識する一方式を提案する。本方式は、論理要素とその関係の可能性を表現した共通論理構造および帳票画像を入力とし、おのおのの論理要素に対して帳票画像中の文字列を対応付けることで、論理構造を安定的に認識する。本方式の特長は、文字列情報とその位置情報とに基づいて、論理要素との対応関係と論理要素に対応させたときの文字列間の関係とを確率的に表現することで、与えられた共通論理構造の論理要素の関係に対応した直感的な確率グラフを構成し、これに対して確率伝搬法から得られた周辺事後確率に基づいて論理要素に文字列を対応付けることによって、レイアウトに依存せずに論理要素と文字列の対応付けを可能にする点である。本方式により、多様なレイアウトや複雑な論理構造に対応可能で、文字列の内容や位置の推定誤りにも強い論理構造認識を実現する。本方式の有効性を三つの帳票種に対する評価実験により確認した。