著者
平野 真太郎 吉岡 由智 成凱 岩井原 瑞穂
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.71, pp.25-30, 2004-07-13
参考文献数
4

ウェブの大きな特徴として,ホットスポットとよばれる少数のウェブサイトに利用が大きく偏っていることが分かっている.膨大なウェブの効率的な活用のために我々は利用者の興味を反映したホットトピックを検出するトピックセンサー[1]を提案してきた.しかし,トピックごとの利用頻度を計算する際トピックの階層構造を考慮しておらず,ホットトピックの検出手法は単純である.本稿ではトピックセンサーの拡張としてHHH(Hierarchical Heavy Hitters) アルゴリズム[2]を用いてトピックの階層構造をより効果的に扱う方法を提案する.Yahoo!カテゴリからトピックの階層構造を抽出し,アクセス履歴における利用状況を考慮することによって時間軸を考慮したホットトピックの検出を行った.トピックの特徴,例えば朝によく利用されるトピック,夜間によく利用されるトピックなどの時間帯による利用状況が知ることができれば,インターネット広告においてより効果的な広告,高度な課金システムの作成が可能になると考えられる.実験では時間帯によるトピックの利用状況を解析し,時間帯によってトピックが3つのタイプに分かれることを確かめた.A salient feature of the web is its biased usage where a few hot spot sites account for most accesses. To detect the hot topics that reflect users' interest, we have developed a system, called topic sensor [1]. However, in that work, we did not take into account the hierarchical structure while counting the access frequencies of each topic. In this paper, we extend that work by allowing topic hierarchy and detect hot topics by Hierarchical Heavy Hitters (HHH) detection algorithms of [2]. We adopt topics Yahoo! directory, and determine their "hotness " by using access logs from shared proxy servers. We demonstrated that a special feature of the usage of topics, for example one topic is often accessed in the morning, the other is often accessed in the night, can improve current Internet Advertisement. We report the result of analysis by hours and ensured that Topics are enabled to divide into 3 types.