著者
椋木 大地 今村 俊幸
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.26, pp.1-6, 2014-12-02

NVIDIA が 2014 年にリリースした Maxwell アーキテクチャの GM107・GM204 コア搭載 GPU は,浮動小数点演算の理論ピーク演算性能比が倍精度:単精度 =1:32 である.このような環境ではソフトウェアで実装した疑似倍精度演算を用いた方が,倍精度の計算を高速に行える可能性がある.本稿では GM204 コアを搭載する GeForce GTX 980 を対象に,単精度型を 2 個連結して倍精度型を表現し,単精度演算で疑似的な倍精度演算を実現する double-float 演算 (DF 演算) を用いて,倍精度行列積を計算する BLAS ルーチンである DGEMM を実装した.その結果,ハードウェアの倍精度演算による通常の DGEMM と比べて,DF 演算を用いた DGEMM は約 2 倍の性能が得られた.
著者
椋木 大地 今村 俊幸
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014-HPC-147, no.26, pp.1-6, 2014-12-02

NVIDIA が 2014 年にリリースした Maxwell アーキテクチャの GM107・GM204 コア搭載 GPU は,浮動小数点演算の理論ピーク演算性能比が倍精度:単精度 =1:32 である.このような環境ではソフトウェアで実装した疑似倍精度演算を用いた方が,倍精度の計算を高速に行える可能性がある.本稿では GM204 コアを搭載する GeForce GTX 980 を対象に,単精度型を 2 個連結して倍精度型を表現し,単精度演算で疑似的な倍精度演算を実現する double-float 演算 (DF 演算) を用いて,倍精度行列積を計算する BLAS ルーチンである DGEMM を実装した.その結果,ハードウェアの倍精度演算による通常の DGEMM と比べて,DF 演算を用いた DGEMM は約 2 倍の性能が得られた.
著者
今村 俊幸 工藤 周平 鈴木 厚 廣田 悠輔 鈴木 智博 椋木 大地
出版者
国立研究開発法人理化学研究所
雑誌
基盤研究(B)
巻号頁・発行日
2019-04-01

エクサ時代のメニイコア環境下において、システム実行効率を向上するための数値計算アルゴリズムならびにタスク技術周辺を数値線形計算の視点から研究する。将来にわたって持続可能な高性能な数値計算ソフトウェアのための開発フレームワーク実現に注力し、数値線形代数カーネル構築の経験から発想される新たなタスクスケジューリング技術(非同期・条件付き・競争的スケジューリング)を研究する。同技術要件をスケジューラプロトタイプとして試作し、既存数値線形代数ソフトウェアに取り込み高性能化・高並列化を実現する。更にエクサ時代のターゲットなる高次元データ解析向け数値計算ソフトウェアに対しても適用範囲を広げていく。
著者
今村 俊幸 大井 祥栄 深谷 猛 廣田 悠輔 椋木 大地 山本 有作 藤堂 眞治
出版者
国立研究開発法人理化学研究所
雑誌
基盤研究(B)
巻号頁・発行日
2015-04-01

本研究は、数万から数億のコアプロセッサが搭載される計算システム環境下において、過去に蓄積された高性能な数値計算サービスを新しい数学原理に基づき実現することを目的にし、「異粒度数値カーネル構築」と共に「非同期的な数値計算アルゴリズム」の2大テーマのもと、1)非同期的数値計算アルゴリズムに関する理論と実用レベルにある省通信・省同期アルゴリズムについて研究しCAHTRやFDTD向けの手法を提案した。更に、2)超メニイコアでのスケーラブルな軽量コード生成のための自動チューニングなどの核基盤技術研究を推進し次世代数値計算ソフトウェアの新技術創出に繋がる新機軸探究を進めた。
著者
椋木 大地 高橋 大介
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2011, pp.148-156, 2011-01-11

本研究では 4 倍・8 倍精度演算に対応した BLAS (Basic Linear Algebra Subprograms) 関数を GPU (Graphics Processing Unit) 向けに実装し評価を行った.4 倍・8 倍精度演算には double 型倍精度数を 2 つ連結して 4 倍精度数を表す double-double (DD) 型 4 倍精度演算,および 4 つ連結して 8 倍精度数を表現する quad-double (QD) 型 8 倍精度演算を用いた.NVIDIA Tesla C2050 による性能評価では,Intel Core i7 920での同一処理と比べ,4 倍精度 AXPY が約 9.5 倍,8 倍精度 AXPY が約 19 倍高速化された.また 4 倍精度 GEMM は CPU に比べて約 29 倍,8 倍精度 GEMM は約 24 倍の高速化を達成した.さらに Tesla C2050 では 4 倍精度 AXPY が倍精度演算の高々 2.1 倍の演算時間となり,GEMV,GEMM でも倍精度演算に対する計算時間の増大が CPU の場合と比べ大幅に削減された.一方で PCI-Express (PCIe) によるデータ転送時間を考慮した場合,倍精度 GEMM は PCIe データ転送性能に律速される傾向が見られたが,4 倍・8 倍精度 GEMM ではこれがほぼ解消されることが示された.本論文では 4 倍・8 倍精度 BLAS 演算が GPU に適しており,CPU に比べ実用的な性能が得られることを示す.