- 著者
-
吉田 光男
山本 幹雄
- 出版者
- 日本データベース学会
- 雑誌
- 日本データベース学会論文誌 (ISSN:18831060)
- 巻号頁・発行日
- vol.8, no.1, pp.29-34, 2009-06
- 被引用文献数
-
3
近年のCMS の普及によりWeb ページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWeb ページ群からコンテンツを抽出する手法を提案する。本手法は、Web ページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web 上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。