著者
藤田 尚樹 安田 宜仁 片渕 典史 片岡 良治
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

ウェブページは広告などページの主題以外の情報を含み,それらは例えば検索エンジンの検索精度低下を引き起こす。そのため本文抽出技術は重要視されている.本稿ではHTML中で本文(主題が記述されている部分)は1つもしくは複数のノード配下の全てのノードとして抽出できるという仮説のもと,CRFを用いた本文判定結果を階層構造を考慮して上位ノードの結果と下位ノードの結果の多数決で再判定する手法を提案する.

言及状況

Twitter (4 users, 4 posts, 1 favorites)

3F3-5 藤田 ウェブページ内の階層構造を考慮した本文抽出技術 https://kaigi.org/jsai/webprogram/2011/paper-40.html #jsai2011
http://t.co/0CrCvJ6 と http://t.co/daYcDyF

収集済み URL リスト