著者
村山 紀文 南野 朋之 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.41-47, 2004-07-15
参考文献数
9
被引用文献数
2

位置情報はWeb上の情報の組織化において有用な情報と考えられるが,現状では,陽に位置情報が明記されていないため,位置情報を利用できない場合が多い.しかし,店名などの固有名はそれ自体は位置情報を直接的に示すものではないが,位置情報と関連した固有名と考えることができる. これらの固有名に対し,位置情報をメタデータとして付与することが出来れば,その位置情報を利用することが出来る. 本研究では,そのようなメタデータ付与のために必要な,固有名と対応する位置情報のデータベースを,Web上の文書から自動的に作成する手法を示す. 本稿では特に,その最初のステップとして,固有名・住所・電話番号の三つ組をWeb上の文書から自動的に抽出する手法を示す.Location information in web pages is very useful to organize information in them. However, many web pages do not include apparent location information in themselves. Though named entities, such as names of stores, are not location information, we think those named entities are related to location information. If we can annotate location information to such named entities, we can use these pages with location information. Therefore, our goal is to extract meta data base for such named entities, that include their location information, telephone number and other information. In this paper, we present a method to automatically constract triples (named entity, its telephone number, its address) from the WWW as a first step of meta data base construction.