舟橋 卓也 上田 高徳 平手 勇宇 山名 早人
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
vol.2008, no.88, pp.139-144, 2008-09-14

これまでに検索エンジンのヒット数を利用した研究が数多く行われている.こうした研究では、当該クエリに対するヒット数を用いることにより,翻訳支援や自然言語処理支援など様々なアプリケーション構築を目指している.従来,検索エンジンのヒット数は信頼できるという仮定の下で用いられてきた.しかし検索エンジンが返すヒット数の信頼性に対する検証は筆者の知る限り行われていない.もしもヒット数が不正確な場合,ヒット数を利用した研究の信頼性は疑わしいものとなる.そこで本論文では,検索エンジンのヒット数に対してその信頼性の検証を行う.検証実験では,日本で広く用いられている商用検索エンジンである Google,Yahoo! Japan,Live Search が提供している検索 API を利用した.また実験に利用するクエリとして,日本語 Wikipedia からランダムに選択した 1 000 件の記事タイトルを使用した.検証実験の結果,ヒット数は 5% ~ 50% の確率で,推定を行った理想的なヒット数に対して 5% 以上大きさが異なることがわかった.A number of studies have been using Search Engines' hit count. The goal of these studies is to build applications for translation support or natural language processing support. These studies assume that the hit count is reliable. However, none of the studies have been verifide the reliability of Search Engines' hit count. If the hit count is unreliable, studies using hit count become also unreliable. The purpose of this paper is to verify the reliability of Search Engines' hit count. In this experiment, we used Search APIs provided by Google, Yahoo! Japan and Live Search. Furthermore, we randomelyrandomly extracted 1,000 keywords from the titles of the articles on Wikipedia as queries. The verification experiment shows that hit count is depart from estimated ideal hit count in 5 - 50% of the time.