著者
小沢 健史 鬼塚 真 福本 佳史 盛合 敏
雑誌
コンピュータシステム・シンポジウム論文集
巻号頁・発行日
vol.2012, pp.60-69, 2012-11-29

本稿では, MapReduce で行う処理のうち,部分集約が可能な処理を高速化する手法を示す.部分集約が可能な処理とは,集約時に結合法則と交換法則が成立する処理のことを指す.部分集約ができる処理に対して,既存研究では特有の処理系を新たに作成することにより高速化を行っていた.しかし,これらの手法は MapReduce の仕組みを大幅に変更する必要があることから, Hadoop に組み込むのは困難であった.そこで本研究では, Hadoop への実装コストが低く抑え,高速化をおこなう Map Multi-Reduce の提案を行う. Map Multi-Reduce は, MapReduce に Record Reduce と Local Reduce の 2 つの機能を追加した, MapReduce の拡張版である.提案手法の実装を行うにあたり行った Hadoop への変更量は, Record Reduce で約 200 行, LocalReduce で約 300 行と小さい.このように少ない変更量にも関わらず,ディスク IO とネットワーク IO が削減され,実験により 2TB WordCount を行う際に,処理速度が 1.7 倍になることを確認した.また, 100GB のデータに対して WordCount を行った際に,最大で Map 処理と Reduce 処理間のデータの受け渡しを 50% に削減できることを確認し,より大きな入力データに対して,データの受け渡しコストをより削減できる可能性があることを示す.