- 著者
-
荒川 豊
田頭 茂明
福田 晃
- 出版者
- 情報処理学会
- 雑誌
- 研究報告モバイルコンピューティングとユビキタス通信(MBL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2010, no.10, pp.1-6, 2010-08-26
本研究では,2009 年 12 月から 2010 年 6 月にかけて収集した位置情報付きツイート 50 万件の中から,位置依存性の高い文字列を抽出する手法を提案する.提案手法では,あるキーワードを含むツイート群に対して,緯度および経度の標準偏差をそれぞれ求め,ツイート群のばらつきの度合いから,そのキーワードの位置依存性を測る.しかし,この手法では,依存する位置が複数存在するキーワード (例えば,チェーン展開している有名店舗名など) を位置依存性の低い単語として判定してしまう.そこで,ある一定の割合以上のツイートを含むエリアを高速に抽出する二次元深さ優先探索を提案する.提案手法では,まず,エリアを 100 キロ四方のグリッドに分割し,それぞれのグリッド内のツイート含有率を計算する.次に,ツイート含有率がある閾値を超えたエリアを 10 キロ四方のグリッドに分割し,同様の判定を行い,最終的には 1 キロ四方のグリッドまで走査する.これらの分析により,1 つのキーワードに対して複数の位置依存性を抽出することが可能となる.In this paper, we propose how to extract the location-dependent keywords from our database which includes 465254 tweets obtained from Dec. 2009 to June 2010. First, we analyize the standard deviation of latitude and longitude, which shows variation level. It is very simple way, but it can't find out the keywords which depend on several locations. For example, famous department stores distributed all over Japan have a large standard deviation, but they will depend on each location. Therefore, we propose two dimension breadth first search, where the searching area is divided into some square grid, and we extract the area which include tweets more than average. In addition, we re-divide the extracted areas into more small grids. Our method can extract some locations for one keywords.