著者
勝山 裕 武部 浩明 黒川 浩司 齊藤 孝広 直井 聡
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.8, pp.1740-1749, 2005-08-01
被引用文献数
2

文書管理システムにおいて, OCR結果の候補文字情報と, キーワード領域の推定を使い, 通常のテキスト検索エンジンで高精度に文書画像を検索できる技術を提案する. この手法では, 文書画像は最初に通常のOCRで文字認識される. 次に, OCRの出力したテキストから, 形態素解析によりキーワード領域が推定される. 候補文字ラティスがこの領域から求められ, 未登録語単語領域ではk-th DP処理により, 名詞単語領域では更に単語辞書との整合により, 候補文字ラティスから文字列が抽出される. 最後に, 通常のテキスト検索エンジンによる高精度な検索を可能にするために, 抽出された文字列は通常のOCRの出力したテキストに追加される. 49枚のOHP文書画像を対象にした検索実験では, 検索精度は, 通常のOCRの出力したテキストのみで検索再現率90.1%, 適合率100%であったが, 提案手法では再現率98.2%, 適合率100%を達成した. また, 処理時間は通常のOCR処理とほぼ変わらず, テキスト量もOCRの出力したテキストの約6倍程度に収まった.