著者
土井 美和子 福井 美佳 山口 浩司 竹林 洋一 岩井 勇
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.76, no.9, pp.2042-2052, 1993-09-25
被引用文献数
9

文書の構造化作業の負担を軽減することを目的に,文書構造の抽出技術を開発した.技術文書では全国大会の予稿集12,000件,ビジネス文書では例文集,社内事務文書約500件を調査し,構造抽出規則を導き出した.開発した文書構造抽出技術は,技術文書であれば,章,節などの階層構造と,図表への参照構造を抽出する.ビジネス文書であれば,手紙文,記事文などの階層構造を抽出する.技術文書とビジネス文書の区別も文字列の解析により行う.誤り率は,規則化に用いたのと別の予稿集や社内文書で評価した結果,技術文書で10.0%,ビジネス文書で23.0%であった.また,参照構造の抽出誤り率は8%であった.文章中に埋め込まれた式や図表などを扱えるように改良を行った後のフィールドテスとでは,技術文書で5.4%,ビジネス文書で15.4%であった.また手作業よりかなり短い時間で構造化を行えることも事例により確認した.開発した文書構造抽出技術はレイアウト属性と結合することにより自動レイアウトシステムとして商品化した.本抽出技術はレイアウト以外にも,既存文書のハイパテキスト化などに今後非常に有効である.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

こんな論文どうですか? 文書構造抽出技法の開発(土井美和子ほか),1993 http://id.CiNii.jp/Nh6AL 文書の構造化作業の負担を軽減すること…

収集済み URL リスト