著者
阪東幸二 芝公仁
出版者
一般社団法人情報処理学会
雑誌
研究報告システムソフトウェアとオペレーティング・システム(OS)
巻号頁・発行日
vol.2014, no.11, pp.1-8, 2014-05-07

MapReduce では,データ処理を複数の Map タスクと Reduce タスクに分割し,各ノードに分散して並列に処理を行う.Reduce タスクは Map タスクによって出力されたデータを入力とするため,他のノードからネットワークを介したデータのコピーが必要となる.このときのコピーするデータ量を削減することで,効率的に処理することができる.Hadoop MapReduce における Reduce タスクの割り当ては,他のノードからコピーする通信データ量を考慮していない.本稿では,各ノードが格納する Map タスクの出力データ量を取得し,通信データ量を考慮した Reduce タスクの割り当てを行う手法について述べる.本手法によって,クラスタ全体での通信データ量を削減し,効率的にタスクを処理することが可能になる.