- 著者
-
加藤 純
前田 宗則
小沢 年弘
- 雑誌
- 研究報告システムソフトウェアとオペレーティング・システム(OS)
- 巻号頁・発行日
- vol.2012, no.8, pp.1-10, 2012-07-25
Twitter や YouTube,Yahoo! Video などの大量データを扱うデータインテンシブな大規模サイトで人気データにユーザーのアクセスが集中すること (データスパイク) によるレスポンス性能の低下が問題になっている.本稿では時間軸に沿って重み付けされた人気度を省メモリで推定することによってデータスパイクの検出を高速に行い,データスパイク時のアクセス頻度の高さによって動的にレプリカ数を調節することでデータスパイクによるレスポンス性能の低下問題を解決する ARD (Adaptive Replication Degree) 機構を提案する.ARD 機構の評価を Michael Jackson の突然死に伴って Wikipedia で発生したデータスパイクを模したワークロードで行ったところ,データスパイクが発生した 5 秒後にはそのスパイクを検出でき,データスパイク時の平均レスポンス時間を 70% 削減できることを確認した.In Internet-scale data-intensive sites (e.g., Twitter, YouTube and Yahoo! Video), extremely concentrated accesses for a piece of popular data, called data spike, cause a high latency problem. This report proposes ARD (Adaptive Replication Degree) to solve such problem. The ARD estimates a time-weighted popularity of data by a memory-efficient manner and quickly detects a data spike through the estimated weighted popularity. When the ARD detects the data spike, it automatically changes the number of replicas of data by access rate of the data spike and levels the concentrated accesses. The evaluation of the ARD is performed by simulating the data spike caused by the sudden death of Michael Jackson at Wikipedia. This result shows that the ARD detects the data spike in five seconds after the rise of the spike and reduces average response time during the data spike by 70%.