- 著者
-
森 達哉
木村 達明
池田 泰弘
上山 憲昭
川原 亮一
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. CQ, コミュニケーションクオリティ (ISSN:09135685)
- 巻号頁・発行日
- vol.110, no.287, pp.5-10, 2010-11-11
本研究は分散コンピューティングシステムにおいてMapReduceによる大規模データ処理を実行した際にシステム全体に生じるワークロードをネットワークの観点から分析した結果を報告する.12台の計算機で構成されるHadoopクラスタを利用し,Masterサーバおよび各々のSlaveサーバで取得したMapReduce Jobのログ,およびSlaveサーバ間の通信をキャプチャしたデータを収集した.はじめにMapReduceジョブを構成する各々のタスクとネットワークに生じ得る負荷の関係をケーススタディによって明らかにする.つぎに,MapReduceに与えるパラメタによって,ノード間のデータ転送に用いられるTCPフローのサイズ,持続時間,レートの分布が変わることを示す.最後にMapReduceジョブによるネットワーク負荷を計測する際に注意すべき点について論じる.