著者
遠藤 敏夫 額田 彰 松岡 聡
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.11, pp.1-6, 2010-12-09

Intel プロセッサに加え NVIDIA GPU を備え,2010 年 11 月に稼働開始したヘテロ型スパコンである TSUBAME 2.0 における Linpack ベンチマークの実行について報告する.本システムは 2CPU と 3GPU を備えた計算ノードを約 1400 台持ち,それらはフルバイセクションのファットツリー構造を持つ QDR InfiniBand ネットワークにより接続される.理論演算性能は TSUBAME 1.0 の約 30 倍となる 2.4PFlops であり,それを TSUBAME 1.0 とほぼ同じ規模の電力で実現している.Linpack ベンチマークのコード改良およびチューニングを GPU を用いた大規模システムの特性に合わせ行い,実行速度として 1.192PFlops を実現した.この結果は日本のスパコンとしては初めて PFlops を超えるものであり,Top500 スパコンランキングに 4 位にランクされた.We report Linpack benchmark results on the TSUBAME 2.0 supercomputer, a large scale heterogenous system with Intel processors and NVIDIA GPUs, operation of which has started in November 2010. The main part of this system consists of about 1400 compute nodes, each of which is equipped with two CPUs and three GPUs. The nodes are connected via full bisection fat tree network of QDR InfiniBand. The theoretical peak performance reaches 2.4PFlops, 30 times larger than that of the predesessor TSUBAME 1.0, while its power consumption is similar to TSUBAME 1.0. We conducted improvement and tuning of Linpack benchmark considering characteristics of large scale systems with GPUs, and achieved Linpack performance of 1.192PFlops. This is the first result that exceeds 1PFlops in Japan, and ranked as 4th in the latest Top500 supercomputer ranking.
著者
額田 彰
出版者
一般社団法人 日本応用数理学会
雑誌
応用数理 (ISSN:24321982)
巻号頁・発行日
vol.20, no.2, pp.125-131, 2010-06-25 (Released:2017-04-08)
参考文献数
6

Latest GPUs have not only high computation power but also high memory bandwidth required to accelerate memory intensive computations like FFT. This paper presents a high performance FFT library for CUDA GPUs. It is important to use auto-tuning to exploit the best performance. As a result, the library achieved much higher than other existing libraries.
著者
遠藤 敏夫 額田 彰 松岡 聡
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.4, no.4, pp.169-179, 2011-10-05

2010 年 11 月に稼働開始した TSUBAME 2.0 スーパコンピュータは,Intel プロセッサに加え 4,000 以上の NVIDIA GPU を備えるペタスケールのヘテロ型システムである.この TSUBAME 2.0 における Linpack ベンチマークの実行について報告する.本システムは 2CPU と 3GPU を備えた計算ノードを約 1,400 台持ち,それらはフルバイセクションのファットツリー構造を持つ Dual-Rail QDR InfiniBand ネットワークにより接続される.理論演算性能は TSUBAME 1.0 の約 30 倍となる 2.4PFlops であり,それを TSUBAME 1.0 とほぼ同じ規模の電力で実現している.Linpack ベンチマークのコード改良およびチューニングを GPU を用いた大規模システムの特性に合わせて行い,実行速度として 1.192PFlops を実現した.この結果は日本のスパコンとしては初めて PFlops を超えるものであり,Top500 スパコンランキングに 4 位にランクされた.さらに電力性能比は 958MFlops/W であり,Green500 ランキングにおいて the Greenest Production Supercomputer in the World 賞を獲得した.
著者
遠藤 敏夫 額田 彰 松岡 聡
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.4, no.4, pp.169-179, 2011-10-05

2010 年 11 月に稼働開始した TSUBAME 2.0 スーパコンピュータは,Intel プロセッサに加え 4,000 以上の NVIDIA GPU を備えるペタスケールのヘテロ型システムである.この TSUBAME 2.0 における Linpack ベンチマークの実行について報告する.本システムは 2CPU と 3GPU を備えた計算ノードを約 1,400 台持ち,それらはフルバイセクションのファットツリー構造を持つ Dual-Rail QDR InfiniBand ネットワークにより接続される.理論演算性能は TSUBAME 1.0 の約 30 倍となる 2.4PFlops であり,それを TSUBAME 1.0 とほぼ同じ規模の電力で実現している.Linpack ベンチマークのコード改良およびチューニングを GPU を用いた大規模システムの特性に合わせて行い,実行速度として 1.192PFlops を実現した.この結果は日本のスパコンとしては初めて PFlops を超えるものであり,Top500 スパコンランキングに 4 位にランクされた.さらに電力性能比は 958MFlops/W であり,Green500 ランキングにおいて the Greenest Production Supercomputer in the World 賞を獲得した.We report Linpack benchmark results on the TSUBAME 2.0 supercomputer, a large scale heterogeneous system with Intel processors and > 4,000 NVIDIA GPUs, operation of which has started in November 2010. The main part of this system consists of about 1,400 compute nodes, each of which is equipped with two CPUs and three GPUs. The nodes are connected via full bisection fat tree network of Dual-Rail QDR InfiniBand. The theoretical peak performance reaches 2.4PFlops, 30 times larger than that of the predecessor TSUBAME 1.0, while its power consumption is similar to TSUBAME 1.0. We conducted improvement and tuning of Linpack benchmark considering characteristics of large scale systems with GPUs, and achieved Linpack performance of 1.192PFlops. This is the first result that exceeds 1PFlops in Japan, and ranked as 4th in the latest Top500 supercomputer ranking. Also TSUBAME 2.0 has received "the Greenest Production Supercomputer in the World" prize in Green500 ranking for its performance power ratio of 958MFlops/W.
著者
額田 彰
出版者
東京工業大学
雑誌
若手研究(A)
巻号頁・発行日
2010

NVIDIA社製のCUDA対応GPU向けの自動チューニングFFTライブラリであるNukadaFFTライブラリを開発した.その性能は多くの場合にNVIDIA社のCUFFTライブラリを上回る.また複数GPU版についても複数GPUを搭載するシングルノードと複数ノード版を実装し,さらなる速度向上を達成した.