- 著者
-
椋木 大地
高橋 大介
- 雑誌
- ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
- 巻号頁・発行日
- vol.2011, pp.148-156, 2011-01-11
本研究では 4 倍・8 倍精度演算に対応した BLAS (Basic Linear Algebra Subprograms) 関数を GPU (Graphics Processing Unit) 向けに実装し評価を行った.4 倍・8 倍精度演算には double 型倍精度数を 2 つ連結して 4 倍精度数を表す double-double (DD) 型 4 倍精度演算,および 4 つ連結して 8 倍精度数を表現する quad-double (QD) 型 8 倍精度演算を用いた.NVIDIA Tesla C2050 による性能評価では,Intel Core i7 920での同一処理と比べ,4 倍精度 AXPY が約 9.5 倍,8 倍精度 AXPY が約 19 倍高速化された.また 4 倍精度 GEMM は CPU に比べて約 29 倍,8 倍精度 GEMM は約 24 倍の高速化を達成した.さらに Tesla C2050 では 4 倍精度 AXPY が倍精度演算の高々 2.1 倍の演算時間となり,GEMV,GEMM でも倍精度演算に対する計算時間の増大が CPU の場合と比べ大幅に削減された.一方で PCI-Express (PCIe) によるデータ転送時間を考慮した場合,倍精度 GEMM は PCIe データ転送性能に律速される傾向が見られたが,4 倍・8 倍精度 GEMM ではこれがほぼ解消されることが示された.本論文では 4 倍・8 倍精度 BLAS 演算が GPU に適しており,CPU に比べ実用的な性能が得られることを示す.