著者
落合 桂一 鳥居 大祐
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.7, no.2, pp.51-60, 2014-06-30

本研究では,Twitterなどの文章が短いマイクロブログを対象として,位置に関する特徴語を利用した地名の曖昧性解消手法を提案する.従来,同名地名の曖昧性解消には地理的に近い地名との共起が用いられていた.しかし,マイクロブログは文章が短いため,地名以外の単語も曖昧性解消に利用すべきである.そこで,マイクロブログの投稿にはその場所特有のトピックが存在することが多いと考え,地名ごとにその場所特有の単語(特徴語)を利用することで地名の曖昧性解消を行う.特徴語は季節変動などに依存しない定常的なものと,時間の経過によって変化する非定常的なものが存在する.そのため,定常的な特徴語(静的特徴語)を観光案内やWikipediaの説明文のような静的な文書から抽出し,地名と静的特徴語の共起により曖昧性解消を行う.ここでは季節変動や時期に依存しない特徴語を利用する.一方,非定常的な特徴語(動的特徴語)はマイクロブログの特徴であるリアルタイム性を反映し,場所のトピックが時間とともに変化すると考え,従来手法により曖昧性解消された投稿から地名ごとの特徴語を動的に生成し曖昧性解消に利用する.提案手法の有効性を確認するため,再現率および適合率を評価した.地名に対して人手により正解ラベルを付与し正しく抽出できる数を調査した.その結果,従来手法の地理的に近い地名との共起をベースラインとして,提案手法の有効性を確認した.
著者
落合 桂一 鳥居 大祐
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.7, no.2, pp.51-60, 2014-06-30

本研究では,Twitterなどの文章が短いマイクロブログを対象として,位置に関する特徴語を利用した地名の曖昧性解消手法を提案する.従来,同名地名の曖昧性解消には地理的に近い地名との共起が用いられていた.しかし,マイクロブログは文章が短いため,地名以外の単語も曖昧性解消に利用すべきである.そこで,マイクロブログの投稿にはその場所特有のトピックが存在することが多いと考え,地名ごとにその場所特有の単語(特徴語)を利用することで地名の曖昧性解消を行う.特徴語は季節変動などに依存しない定常的なものと,時間の経過によって変化する非定常的なものが存在する.そのため,定常的な特徴語(静的特徴語)を観光案内やWikipediaの説明文のような静的な文書から抽出し,地名と静的特徴語の共起により曖昧性解消を行う.ここでは季節変動や時期に依存しない特徴語を利用する.一方,非定常的な特徴語(動的特徴語)はマイクロブログの特徴であるリアルタイム性を反映し,場所のトピックが時間とともに変化すると考え,従来手法により曖昧性解消された投稿から地名ごとの特徴語を動的に生成し曖昧性解消に利用する.提案手法の有効性を確認するため,再現率および適合率を評価した.地名に対して人手により正解ラベルを付与し正しく抽出できる数を調査した.その結果,従来手法の地理的に近い地名との共起をベースラインとして,提案手法の有効性を確認した.In this study, we propose a disambiguation method for toponyms using words related to the location. Conventionally, toponym ambiguition has been resolved by using nearby toponyms based on the hypothesis that geographically-closed toponyms are appeared frequently in the same contenxt. In the case of microblogs, however, words other than toponyms are preferable to be used because short texts of microblogs have less information. To this end, we consider that microblogs have a topic related to the location and propose a method which uses words related to the location ("location-related words") as disambiguators for each toponym. The location-related words are categorized into two groups. One is static words independent of seasonal variations and so on. The other is dynamic one which depends on seasonal variations etc. The dynamic location-related words reflect immediacy of microblog (i.e., the dynamic location-related words vary with time). We evaluated our proposed method by recall and precision using manually labeled data. The result showed that the recall of our proposed method is higher than that of the conventional method.