著者
市野 順子 箕牧数成 山口 和泰 垣 智 東 郁雄 古田 重信
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2002, no.28, pp.143-150, 2002-03-15

近年,様々な形式の電子文書が普及し,蓄積されている.しかし,それらの再利用や検索についてはあまり考慮されていない.本研究では,文書中の図表に着目し,様々な形式の電子文書から図表領域を特定し,図表に関連する様々な情報を網羅的に抽出することを目指す.本稿では図表領域及び,図表に関連するテキスト情報を抽出する手法について述べる.提案手法はルールベースを基本としている.11文書90図表を対象に抽出を行ったところ,図表領域の特定は,再現率97%,適合率80%,キャプション,本文図表説明文の抽出は,それぞれ3位適合率85%,3位適合率90%の結果を得た.Although electronic documents have come into wide use and a mass of data is stored, reuse or retrieval of these documents has not been considered much. In this study, focusing on the charts in documents, we attempt to specify chart areas and extract information about charts from electronic documents in various forms. In this paper, the method of extraction of chart areas and text information is examined. The algorithm is based on rules. An experiment in the validity of chart retrieval was made on 11 documents and 90 charts, and the results show: recall 97% and precision 80% in specifying chart areas; and precision (3-CUTOFF) 85% and 90% in extracting captions and chart explanations respectively.