- 著者
-
荒川 豊
田頭 茂明
福田 晃
- 出版者
- 情報処理学会
- 雑誌
- 研究報告モバイルコンピューティングとユビキタス通信(MBL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2010, no.50, pp.1-7, 2010-03-19
- 被引用文献数
-
1
本研究では,コンテキストアウェアIME実現へ向けて,コンテキストと入力文字列との相関関係を明らかにするために,Twitter (ツイッター) のつぶやきを収集し分析を行った.ツイッターを分析対象とした理由は,位置情報が付加された文字列が大量に得られることと幅広いユーザ層の文字列が得られることからである.2009 年 12 月 15 日から 2010 年 2 月 1 日の位置情報付きの 13590 件のツイートに対して,位置情報から得られるランドマーク情報と,時間情報から得られるテレビ番組情報とのマッチングを行ない,取得したツイートのうち,4.83% が発言した位置を元に得られるランドマーク情報を含み,8.16% が発言した時間を元に得られるテレビ番組情報を含んでいることを明らかにした.また,一致した文字列は,2~3 文字であることや Web 検索結果の上位 10 件に約 45% が含まれていることを明らかにした.The objective of this paper is to clear out the relation ship between user's context and really used words in order to realize the context-aware IME. In this paper, we target public tweets of Twitter, because it includes various user's real sentences with geocode (latitude and longitude). We analyze 13590 tweets that have collected from 15 December 2009 to 1 February 2010 for specifying the relationship to landmark information and TV program. As a result, we show that 4.83% of tweets include landmark words, and 8.16% of tweets include TV program words. Additionally, we bring out that average length of concerted words is about 2.5 words, and 45% of them are included in top 10 of web search results.