著者
鶴田 雅信 増山 繁
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.6, pp.977-988, 2011-06-01

手掛り語「会社概要」,及び,企業の公式ページのトップページURL一覧を入力とし,企業の基本情報を含むページの探索を行いながら,基本情報の属性を属性名,属性値の組の形で自動的に抽出する手法を提案する.提案手法は,企業の公式Webサイト全体からの属性抽出というタスクの一部を,基本情報ページの探索問題に置き換え,属性抽出の対象となるページ数を削減した上で,属性抽出を行う.そのため,Webサイト全体から属性抽出を行う場合に比べ,属性抽出手法そのものが単純であっても,良好な抽出を行うことが可能となることが特徴である.評価実験の結果,抽出された属性の精度は0.656,再現率は0.416,探索に成功したページのみにおける抽出結果の精度は0.781,再現率は0.625となり,幅優先探索によりページを探索するベースライン手法,及び,幅優先探索によって探索したページから,ナイーブベイズ分類器を用いて基本情報ページを選択するベースライン手法と比較して,良好な結果を示した.
著者
鶴田 雅信 増山 繁
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.6, pp.742-756, 2010 (Released:2010-09-22)
参考文献数
12

We propose an informative DOM node extraction method from a Web page for preprocessing of Web content mining. Our proposed method LM uses layout data of DOM nodes generated by a generic Web browser, and the learning set consists of hundreds of Web pages and the annotations of informative DOM nodes of those Web pages. Our method does not require large scale crawling of the whole Web site to which the target Web page belongs. We design LM so that it uses the information of the learning set more efficiently in comparison to the existing method that uses the same learning set. By experiments, we evaluate the methods obtained by combining one that consists of the method for extracting the informative DOM node both the proposed method and the existing methods, and the existing noise elimination methods: Heur removes advertisements and link-lists by some heuristics and CE removes the DOM nodes existing in the Web pages in the same Web site to which the target Web page belongs. Experimental results show that 1) LM outperforms other methods for extracting the informative DOM node, 2) the combination method (LM, {CE(10), Heur}) based on LM (precision: 0.755, recall: 0.826, F-measure: 0.746) outperforms other combination methods.
著者
鶴田 雅信 増山 繁
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.24, 2010

企業の公式 Web サイトには、投資家などにとって有用な情報である、企業の基本情報が記述されているページが存在する。本研究では、基本情報が含まれるページへのリンクに含まれやすいと考えられる語(手がかり語)、および、企業の公式 Web サイトのトップページリストのみを用いて、クローリングと同時に企業の基本情報の属性、および、属性値を自動的に抽出するシステムを提案する。