- 著者
-
大澤 昇平
松尾 豊
- 出版者
- The Institute of Electronics, Information and Communication Engineers
- 雑誌
- 電子情報通信学会論文誌 D (ISSN:18804535)
- 巻号頁・発行日
- vol.J100-D, no.10, pp.870-881, 2017-10-01
FacebookやTwitterなどのソーシャルメディアを対象にした分析研究では,分析対象となるエンティティの属性情報を収集するために,ソーシャルメディアの提供するAPI (application programming interface)に対するサンプリングが行われることがある.APIの中でも,検索APIに対するサンプリングはこれまで事例が少なく,効率的なサンプリング手法については明らかになっていない.本論文では,Wikipediaから得られるオントロジーを用いることで,検索APIを利用したサンプリングの効率を高めることができることを示す.具体的に,オントロジーから複数の辞書を生成し,収集したいトピックに合わせて適応的に用いる辞書を変える手法を提案する.また,辞書の評価指標として推定Jaccard指標を提案する.実験では,提案手法がFacebookから25.8%にあたる1800万件のエンティティをサンプリングでき,推定Jaccard係数を用いた手法が既存手法よりも効率が高いことを報告する.