著者
吉田 光男 山本 幹雄
出版者
日本データベース学会
雑誌
日本データベース学会論文誌 (ISSN:18831060)
巻号頁・発行日
vol.8, no.1, pp.29-34, 2009-06

近年のCMS の普及によりWeb ページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWeb ページ群からコンテンツを抽出する手法を提案する。本手法は、Web ページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web 上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。

言及状況

Twitter (2 users, 2 posts, 1 favorites)

日本の機関リポジトリでよく利用されている DSpace の書誌情報ページは、管理画面を覗いてる感じがするね。 http://t.co/lxroT1OD
教師情報を必要としないニュースページ群からのコンテンツ自動抽出 https://t.co/sK3YIys おもしろい [Tween]

収集済み URL リスト