著者
森 達哉 木村 達明 池田 泰弘 上山 憲昭 川原 亮一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CQ, コミュニケーションクオリティ (ISSN:09135685)
巻号頁・発行日
vol.110, no.287, pp.5-10, 2010-11-11

本研究は分散コンピューティングシステムにおいてMapReduceによる大規模データ処理を実行した際にシステム全体に生じるワークロードをネットワークの観点から分析した結果を報告する.12台の計算機で構成されるHadoopクラスタを利用し,Masterサーバおよび各々のSlaveサーバで取得したMapReduce Jobのログ,およびSlaveサーバ間の通信をキャプチャしたデータを収集した.はじめにMapReduceジョブを構成する各々のタスクとネットワークに生じ得る負荷の関係をケーススタディによって明らかにする.つぎに,MapReduceに与えるパラメタによって,ノード間のデータ転送に用いられるTCPフローのサイズ,持続時間,レートの分布が変わることを示す.最後にMapReduceジョブによるネットワーク負荷を計測する際に注意すべき点について論じる.