著者
黄瀬浩一 百田 賢一 杉山 淳一 馬場口 登 手塚慶一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.34, no.8, pp.1716-1730, 1993-08-15
被引用文献数
5

印刷文書こ記録された情報を計算機を介して有効利用するためには、文書中の文字を認識し、論理構造により構造化するという文書画像理解が不可欠となる。一般に、文書の論理構造は、章、節などの論理オブジェクトの木構造として表現され、文書のレイアウトとともに、コンテントとも深い関連性を持つものである。したがって、文書画像理解のロバスト性を向上させるためには、いずれか一方ではなく、両者を知識として蓄え、協調的に使用することが望ましい。本論文では、仮説駆動型の処理戦略の導入により、この目標の達成を試みる。本手法では、まず文書のレイ・アウトに関する知識を用いて、論理オブジェクトの領域を抽出する。ここで、抽出結果に複数の可能性が残る場合には、互いに矛盾する仮説として生成する。生成された仮説は、依存関係を保持する依存関係データベースにより記録・管理され、処理の制御に使用される。また、処理の途中で発見された仮説の矛盾は矛盾データベースに記録され、探索空間の削減に用いられる、次に仮説の依存関係、矛麿を考慮しつつ、コンテントに関する知識を用いて仮説を検証する。本手法では、単語の接続性、単語列の矛盾という二つの概念を導入し、知識を表現する。縦書き名刺100枚を対象とした仮説生成検証実験から、文字の摘出率93.0%、論理オブジェクトの抽出率92.6%、コンテントの同定率86.8%を得、本手法の有効性を確認した。