- 著者
-
相良 毅
喜連川 優
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
- 巻号頁・発行日
- vol.91, no.3, pp.531-537, 2008-03-01
- 被引用文献数
-
1
Webからの店舗情報収集を行う際には,収集したWebページがある店舗に関連することを確認するため,店舗名称を識別語として利用する必要がある.しかし,店舗データベースに登録されている店舗名称には,支店名などWebページには記載されていない可能性のある語(不要語)が含まれているため,収集したページを正しく関連づけられないという問題がある.不要語にはビル名を用いた支店名など多くのバリエーションがあり,不要語辞書を整備して除去することは難しい,そこで,店舗データベースに含まれる住所の情報や,周辺の駅名,同じ住所に存在する複数の店舗名称を用いることにより,店舗名称をクリーニングする手法を開発した.実験によると,提案手法のクリーニング正解率は95.3%と実用的な性能を示した.