教師情報を必要としないニュースページ群からのコンテンツ自動抽出

1 0 0 0 IR 教師情報を必要としないニュースページ群からのコンテンツ自動抽出

著者: 吉田光男山本幹雄
出版者: 日本データベース学会
雑誌: 日本データベース学会論文誌 (ISSN:18831060)
巻号頁・発行日: vol.8, no.1, pp.29-34, 2009-06
被引用文献数: 3

近年のCMS の普及によりWeb ページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWeb ページ群からコンテンツを抽出する手法を提案する。本手法は、Web ページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web 上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。

2014-02-27 22:15:07
1 + 3 Twitter

https://ci.nii.ac.jp/naid/120003020515

言及状況

Twitter (1 users, 1 posts, 3 favorites)

あ。大発見。 Google Scholar の cites パラメータは CiNii の URL で利用できないと思ってたんだけど、最後に / を入れると認識するぞ！ http://t.co/ljco5cqtk5

3 @gepuro @min2fly @zanthodon

収集済み URL リスト

http://scholar.google.com/scholar?cites=http://ci.nii.ac.jp/naid/120003020515/ (1)