- 著者
-
山本 あゆみ
佐藤理史
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
- 巻号頁・発行日
- vol.2000, no.3, pp.173-180, 2000-01-12
- 被引用文献数
-
7
本稿では,ワールドワイドウェブから人物に関する情報を収集する2つの方法を提案する.第1の方法は,表形式の職業別人名リストを情報源として利用する方法である.この方法では,まず,与えられた職名(例えば「政治家」)から,検索エンジンとハイパーリンクを用いて,その職業の人名リストを収集する.次に,収集されたリストに対して表解析を適用し,それぞれの人物に対して主要情報を抽出する.第2の方法は,人物を紹介した短いテキスト(プロフィール)を抽出する方法である.この方法は,職名と人名を入力とし,それらを用いて収集したウェブページに対してレイアウト解析を適用し,求める人物のプロフィールを抽出する.This paper proposes two methods for collecting people's information from the World Wide Web. From the given occupation category such as Seijika (politicians), the first method collects web pages that include tables whose content is people lists of the given occupation, and extract personal properties such as name and birthday for each person by using table analysis. The second method accepts a person name and her occupation as an input, and collects her profile in text form by using layout analysis of HTML texts.