著者
黒松 信行 小林 健一 Viel Emeric 浦 晃 上田 晴康
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-150, no.18, pp.1-7, 2015-07-28

機械学習においては,処理するデータ量,得られる精度,実行に要する時間の制約を満たす中で,逐次・並列分散の観点も含めたライブラリやアルゴリズム,パラメータの膨大な組み合わせの中から最適なものを選択することは困難であった.そこで,許容できる実行時間と入力データを与えるだけで最も高い精度を得ることを目的として,条件を変えながら何度も機械学習を実行することで最適な選択肢を自動的に選ぶプラットフォーム wizz を Apache Spark 上に構築した.wizz は並列処理向けの Apache Spark の MLlib と逐次実行向けの R スクリプトおよび R スクリプトの分散実行によるアンサンブル学習機能を提供しており,並列処理ライブラリと逐次処理ライブラリを同時に多数実行することができる.
著者
黒松信行 松田雄一 上田晴康
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [ハイパフォーマンスコンピューティング]
巻号頁・発行日
vol.2014, no.3, pp.1-5, 2014-07-21

ユーザが既存の業務アプリを修正することなく Hadoop 上で実行することでバッチ処理を高速化する技術として,富士通は NetCOBOL Hadoop 連携機能を開発した.しかし,Reduce タスクの入力データの偏りが原因で実行時間がばらつくために Hadoop の並列効果が低下する問題があった.この問題は Hadoop の仕組みと入力データ中に含まれるキーの出現数の偏りに起因する Reduce-Skew に原因がある.一般に,業務アプリはキーの種類が少ないため出現数が偏ることが多く,NetCOBOL Hadoop 連携機能では Reduce-Skew が生じやすい.我々は業務アプリを修正せずにバッチ処理を高速化する NetCOBOL Hadoop 連携機能の特徴を損なわずに Reduce-Skew を軽減する割合指定 Partitioner を提案する.割合指定 Partitioner は Reduce タスクの入力データ量の平準化と,タスクスケジューリングの最適化により MapReduce ジョブの実行時間を短縮する.実業務で使われるデータを再現して評価した結果、処理完了までの時間を最大で 30.6%短縮した.