大規模機械学習訓練におけるI/O性能の高速化

3 0 0 0 大規模機械学習訓練におけるI/O性能の高速化

著者: 芹沢和洋建部修見
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2019-HPC-170, no.9, pp.1-12, 2019-07-17

深層ニューラルネットワークに使用される訓練データの規模は年々増加しており,深層ニューラルネットワークの訓練処理において訓練データの read I/O は無視できないボトルネックになりつつある.ノードローカルストレージとして搭載された SSD などの I/O が高速なストレージデバイスを使用することで read I/O の高速化は可能であるが,HPC クラスタにおいては毎回訓練データセットのファイルコピーが毎回必要であるという課題がある.また,HPC クラスタの計算ノードからネットワークを経由してアクセス可能な外部ストレージは訓練データセットをファイルコピーせずに訓練処理を開始できるが,SSD ほどのバンド幅は見込めない.本研究では,ノードローカルストレージと外部ストレージを組み合わせて使用することで事前に訓練データセットのコピーをせずに read I/O を高速化する手法を提案する.提案手法を機械学習フレームワークである Chainer に実装し,Chainer が提供する並列に訓練データを read する機能をベースラインとして,read I/O 性能を自作したベンチマークによって比較したところ,Lustre に訓練データを配置した場合のベースラインよりも,より少ないプロセス数を使用して最大で約 20% 高い read I/O 性能を達成できることを示した.データ並列訓練における 10 epoch の訓練時間の比較では,訓練データセットのファイルコピーに要する時間を考慮するとベースラインと SSD の組み合わせよりも訓練処理時間を短縮できることを示した.一方で,データ並列訓練においては read I/O ではなく AllReduce による処理時間が律速するため,ストレージ間の I/O 性能が処理時間に反映されにくいという,データ並列訓練の所要時間における特性を明らかにした.

2019-08-08 14:08:04
3 + 0 Twitter

http://id.nii.ac.jp/1001/00198056/

言及状況

Twitter (3 users, 3 posts, 0 favorites)

@kmizumar @keisukefukuda 引用のGB論文はこちらでステージングについてはV.で言及されています。 https://t.co/VpwKRB5JNo 関連だとこの辺りでしょうか https://t.co/kLzyML4ITu 国内だとメモリでなくssdですが以下が関連してますかね https://t.co/FjkXzA2m0J

1 @kmizumar

新曲です．来週北見で発表します． https://t.co/EBGbOsfhx1 おそらく院生生活で最後の対外発表になります．

収集済み URL リスト

https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=198146&item_no=1&page_id=13&block_id=8 (3)