- 著者
-
黒松信行
松田雄一
上田晴康
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告. [ハイパフォーマンスコンピューティング]
- 巻号頁・発行日
- vol.2014, no.3, pp.1-5, 2014-07-21
ユーザが既存の業務アプリを修正することなく Hadoop 上で実行することでバッチ処理を高速化する技術として,富士通は NetCOBOL Hadoop 連携機能を開発した.しかし,Reduce タスクの入力データの偏りが原因で実行時間がばらつくために Hadoop の並列効果が低下する問題があった.この問題は Hadoop の仕組みと入力データ中に含まれるキーの出現数の偏りに起因する Reduce-Skew に原因がある.一般に,業務アプリはキーの種類が少ないため出現数が偏ることが多く,NetCOBOL Hadoop 連携機能では Reduce-Skew が生じやすい.我々は業務アプリを修正せずにバッチ処理を高速化する NetCOBOL Hadoop 連携機能の特徴を損なわずに Reduce-Skew を軽減する割合指定 Partitioner を提案する.割合指定 Partitioner は Reduce タスクの入力データ量の平準化と,タスクスケジューリングの最適化により MapReduce ジョブの実行時間を短縮する.実業務で使われるデータを再現して評価した結果、処理完了までの時間を最大で 30.6%短縮した.