著者
ナッティーチョラウィト 沼尾 正行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.41, pp.17-24, 2001-05-17
被引用文献数
1

近年、文書の容易な蓄積、管理、検索が実現しつつある。しかし一方で紙は今だ文書の主要な媒体となっている。このことから、既存の紙文書の電子化に対する要求が高まっている。本稿では、機械学習手法を用いた、文書のレイアウト処理システムを提案する。このシステムは、文書レイアウトの役割を分析し、レイアウトのタグ付けを行って、文書の分類を行う。本研究では、訓練例から帰納論理プログラミングという学習手法とウィンノーアルゴリズムを用い、重要な知識を取得し、文書のスタイルの学習を行う。本システムの性能を評価するために、いくつかの学会誌や会議から複数の論文を収集し、文書の理解と分類の実験を行った。その結果、従来のシステムと比較して、本研究で提案されたシステムの正確さの方が高いことを確認した。

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト