著者
黒松信行 松田雄一 上田晴康
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [ハイパフォーマンスコンピューティング]
巻号頁・発行日
vol.2014, no.3, pp.1-5, 2014-07-21

ユーザが既存の業務アプリを修正することなく Hadoop 上で実行することでバッチ処理を高速化する技術として,富士通は NetCOBOL Hadoop 連携機能を開発した.しかし,Reduce タスクの入力データの偏りが原因で実行時間がばらつくために Hadoop の並列効果が低下する問題があった.この問題は Hadoop の仕組みと入力データ中に含まれるキーの出現数の偏りに起因する Reduce-Skew に原因がある.一般に,業務アプリはキーの種類が少ないため出現数が偏ることが多く,NetCOBOL Hadoop 連携機能では Reduce-Skew が生じやすい.我々は業務アプリを修正せずにバッチ処理を高速化する NetCOBOL Hadoop 連携機能の特徴を損なわずに Reduce-Skew を軽減する割合指定 Partitioner を提案する.割合指定 Partitioner は Reduce タスクの入力データ量の平準化と,タスクスケジューリングの最適化により MapReduce ジョブの実行時間を短縮する.実業務で使われるデータを再現して評価した結果、処理完了までの時間を最大で 30.6%短縮した.