- 著者
-
鶴田 雅信
増山 繁
- 出版者
- The Institute of Electronics, Information and Communication Engineers
- 雑誌
- 電子情報通信学会論文誌 D (ISSN:18804535)
- 巻号頁・発行日
- vol.J94-D, no.6, pp.977-988, 2011-06-01
手掛り語「会社概要」,及び,企業の公式ページのトップページURL一覧を入力とし,企業の基本情報を含むページの探索を行いながら,基本情報の属性を属性名,属性値の組の形で自動的に抽出する手法を提案する.提案手法は,企業の公式Webサイト全体からの属性抽出というタスクの一部を,基本情報ページの探索問題に置き換え,属性抽出の対象となるページ数を削減した上で,属性抽出を行う.そのため,Webサイト全体から属性抽出を行う場合に比べ,属性抽出手法そのものが単純であっても,良好な抽出を行うことが可能となることが特徴である.評価実験の結果,抽出された属性の精度は0.656,再現率は0.416,探索に成功したページのみにおける抽出結果の精度は0.781,再現率は0.625となり,幅優先探索によりページを探索するベースライン手法,及び,幅優先探索によって探索したページから,ナイーブベイズ分類器を用いて基本情報ページを選択するベースライン手法と比較して,良好な結果を示した.