- 著者
-
相良 毅
喜連川 優
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌データベース(TOD) (ISSN:18827799)
- 巻号頁・発行日
- vol.48, no.11, pp.49-57, 2007-06-15
- 被引用文献数
-
3
Webから地理情報を抽出する手法の1つに,あらかじめ検索対象のリストを作成し,クローリングによって得られた情報を各検索対象に関連づける登録型検索手法がある.登録型検索手法は,リストを用意せずにオンデマンドに検索を行う非登録型検索手法に比べ,より多くの情報を高い精度で収集できるという長所があり,評判情報抽出など情報の精度を必要とする処理には適しているが,リストに登録されていない対象に関する情報を収集することができないという欠点がある.そこで,登録型検索手法により収集されたWebページを対象として非登録型検索手法を援用することにより,リストにない新規店舗を高い精度で検索し登録できる手法を提案し,登録支援システムを開発した.To extract geographical information from the Web, there are two typical approaches. The 1st one is preparing all geographical entities as a list, and crawled web pages will be linked to them by analyzing their content. The other one is retrieving web pages on demand with keywords given by the user, extract addresses from the pages to locate them to the ground. The 1st approach is more precise and able to acquire more information in general, so the approach is suitable for reputation / opinion extraction, however, no entities on the list can not be retrieved by the approach. Therefore, we have applied the 2nd approach to find new shops which are not on the list, from the web pages retrieved by the 1st approach. Since the web pages retrieved by the 1st approach contain many shop information in high probability, the proposed method can extract new shops efficiently. A prototype registration support system is also developed.