文献一覧: 星野哲也 (著者)

1 0 0 0 OpenMPを用いたGPUオフローディングの有効性の評価

著者: 河合直聡三木洋平星野哲也塙敏博中島研吾
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2022-HPC-183, no.18, pp.1-9, 2022-03-10

限られた電力,設置面積で最大の性能を得られるスーパーコンピュータシステムを実現するためには,GPU 等の演算加速装置の導入が不可避となりつつある.汎用 CPU 向けに Fortran や C/C++ で記述され,OpenMP で並列化されたプログラムを CUDA 等を使って GPU 向けに書き直すことはコストがかかる.OpenMP にはバージョン 4.0 以降は GPU 等でプログラムを実行するオフローディング機能がサポートされている.本研究では,この機能を用いて,演算律速なアプリケーションである N 体計算およびメモリ律速なアプリケーションである ICCG 反復法に適用し,NVIDIA A100,AMD MI100 上での性能評価を実施した.結果,N 体計算では A100 上では CUDA 実装の 58.3%,MI100 上では HIP 実装の 71.9% の演算性能を確認した.また,ICCG 法では Stream Triad ベンチマークで計測したメモリースループットの 88%(A100)と 53%(MI100)を確認した.以上の結果から,OpenMP での GPU オフローディングは,MI100 上での ICCG 法を除いて,実用的な範囲と考える.

2022-03-18 12:16:54
1 + 0 Twitter

http://id.nii.ac.jp/1001/00217388/

1 0 0 0 OA データ解析・シミュレーション融合スーパーコンピュータシステムReedbush-Uの性能評価

著者: 塙敏博中島研吾大島聡史伊田明弘星野哲也田浦健次朗
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2016-HPC-156, no.10, pp.1-10, 2016-09-08

東京大学情報基盤センターでは,データ解析・シミュレーション融合スーパーコンピュータシステム Reedbush を導入し,2017 年 3 月より全系稼働開始予定である.Reedbush システムは,Intel Xeon E5 (Broadwell-EP) プロセッサに加えて NVIDIA Tesla P100 (Pascal) GPU を一部計算ノードに搭載する他,高速ファイルキャッシュシステムや,InfiniBand EDR などを始めとして導入時点で最新の技術を集めたシステムである.本稿では 2016 年 7 月から稼働を開始した汎用 CPU のみからなる Reedbush-U サブシステムの性能について報告する.

2020-10-08 23:45:00
1 はてなブックマーク

http://id.nii.ac.jp/1001/00174434/

1 0 0 0 低精度演算とアプリケーション性能

著者: 中島研吾坂本龍一星野哲也有間英志塙敏博近藤正章
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2020-HPC-174, no.5, pp.1-9, 2020-05-06

近年,科学技術計算において,低精度演算を積極的に活用することにより,計算時間を短縮する試みが活発に行われている.また,低精度演算による計算の精度を保証するための実用的手法についても研究が進められている.本研究では,アプリケーションの実装方法,問題規模と低精度演算による性能改善の関係に注目し,様々なハードウェア環境下での検討を実施した.

2020-05-07 02:09:02
1 + 0 Twitter

http://id.nii.ac.jp/1001/00204393/

1 0 0 0 OA 圧縮性流体解析プログラムのOpenACCによる高速化

著者: 星野哲也松岡聡
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2016-HPC-153, no.4, pp.1-10, 2016-02-23

航空機の開発などに用いられる圧縮性流体解析アプリケーションには多大な演算パワーが必要とされ,近年一般的になっている演算アクセラレータを用いたスーパーコンピュータの利用が推進されている.しかし一般に,既存のアプリケーションのアクセラレータ向けの移植・最適化には多大なコストが伴うことが知られている.本稿では,実際に用いられている圧縮性流体アプリケーション UPACS へ OpenACC を適用・最適化することでその移植コストを調査し,OpenMP による移植との性能比較評価を行った.その結果,PGI コンパイラを用いた場合においては,基準となる変更なしの UPACS から 9.5 倍,OpenMP により並列化し 6CPU コアで実行した場合と比較して 15%の性能向上を得た.またさらなる高速化に向けて,ボトルネック部分の最適化の検討,CUDA Fortran の適用に向けた予備評価を行った結果を報告する.

2019-10-01 20:13:12
1 + 0 Twitter

http://id.nii.ac.jp/1001/00149641/

1 0 0 0 ICCG法ソルバーのIntel Xeon Phi向け最適化

著者: 中島研吾大島聡史塙敏博星野哲也伊田明弘
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2016-HPC-157, no.16, pp.1-8, 2016-12-14

SELL-C-σ 法は疎行列演算の性能を高める行列格納手法として注目されているが,これまでは専ら疎行列ベクトル積に適用されてきた.科学技術計算において広く使用されている ICCG 法は前進後退代入,不完全コレスキー分解等のデータ依存性を有するプロセスを含むため,多色順序付け等によって並列性を抽出する必要がある.本研究は世界でも初めて,ICCG 法に SELL-C-σ 法を適用した事例である.Intel Xeon Phi (Knights Corner,Knights Landing) 上での性能評価を実施し,特に Knights Landing 上では従来手法と比較して高い性能改善を達成することができた.

2016-12-27 15:54:20
1 + 0 Twitter

http://id.nii.ac.jp/1001/00176349/