著者
成瀬 彰 住元 真司 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.11, pp.62-70, 2004-10-15
参考文献数
16
被引用文献数
1

本論文では,PCクラスタのプロセッサとしてよく使用されるXeonプロセッサ向けのLinpackベンチマーク高速化手法について述べる.特に,Linpackベンチマーク実行時間の大半を占める倍精度行列積(DGEMM)の最適化手法について説明する.最適化はオープンソースの数値演算ライブラリであるATLASをベースに行い,キャッシュ容量,TLBエントリ数,システムバス負荷の均等化を考慮してDGEMMカーネルを作成し,それに合わせてDGEMMカーネル呼び出し部分を変更した.最適化したDGEMMを2.4 GHz Xeonプロセッサを搭載したFujitsu PRIMERGY L250で評価した結果,DGEMMそのものの性能を測定する正方行列積プログラ厶では4.33 GFlops(実行効率:90.2%)を記録した.また,Linpack ベンチマークでは4.13 GFlops(実行効率:86.0%)を記録した.これは従来最速とされていたGOTO BLAS を5%上回る性能である.In this paper, we explain the optimization technique of matrix multiplication (DGEMM) for Xeon processor, that is heavily used in Linpack benchmark. Our optimization technique is based on reducing cache misses and D-TLB misses and averaging FSB (Front Side Bus) loads. We have applied this technique to an open-source numerical library ATLAS. The benchmark results using our DGEMM implementation show better performance than GOTO BLAS that is famous for a fast DGEMM. On a Fujitsu PRIMERGY L250 system equipped with 2.4 GHz Xeon processors, performance of square matrix multiplication program attains 4.33 GFlops (90.2% efficiency) and performance of Linpack benchmark attains 4.13GFlops (86.0% efficiency).

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト