GPUによる4倍・8倍精度BLASの実装と評価

1 0 0 0 OA GPUによる4倍・8倍精度BLASの実装と評価

著者: 椋木大地高橋大介
雑誌: ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日: vol.2011, pp.148-156, 2011-01-11

本研究では 4 倍・8 倍精度演算に対応した BLAS (Basic Linear Algebra Subprograms) 関数を GPU (Graphics Processing Unit) 向けに実装し評価を行った.4 倍・8 倍精度演算には double 型倍精度数を 2 つ連結して 4 倍精度数を表す double-double (DD) 型 4 倍精度演算,および 4 つ連結して 8 倍精度数を表現する quad-double (QD) 型 8 倍精度演算を用いた.NVIDIA Tesla C2050 による性能評価では,Intel Core i7 920での同一処理と比べ,4 倍精度 AXPY が約 9.5 倍,8 倍精度 AXPY が約 19 倍高速化された.また 4 倍精度 GEMM は CPU に比べて約 29 倍,8 倍精度 GEMM は約 24 倍の高速化を達成した.さらに Tesla C2050 では 4 倍精度 AXPY が倍精度演算の高々 2.1 倍の演算時間となり,GEMV,GEMM でも倍精度演算に対する計算時間の増大が CPU の場合と比べ大幅に削減された.一方で PCI-Express (PCIe) によるデータ転送時間を考慮した場合,倍精度 GEMM は PCIe データ転送性能に律速される傾向が見られたが,4 倍・8 倍精度 GEMM ではこれがほぼ解消されることが示された.本論文では 4 倍・8 倍精度 BLAS 演算が GPU に適しており,CPU に比べ実用的な性能が得られることを示す.

2013-05-04 20:54:44
1 + 1 Wikipedia

http://id.nii.ac.jp/1001/00071791/

言及状況

Wikipedia (1 pages, 1 posts, 1 contributors)

編集者: MetaNest
2021-12-12 05:45:55 の編集で削除されたか、リンク先が変更された可能性があります。

収集済み URL リスト

https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=71791&item_no=1&page_id=13&block_id=8 (1)