文献一覧: 塙敏博 (著者)

2 0 0 0 OA OpenFMOにおける4中心クーロン相互作用項計算のGPGPU化の試み

著者: 梅田宏明塙敏博庄司光男朴泰祐重田育照
出版者: 日本コンピュータ化学会
雑誌: Journal of Computer Chemistry, Japan (ISSN:13471767)
巻号頁・発行日: vol.14, no.3, pp.69-70, 2015 (Released:2015-09-25)
参考文献数: 6
被引用文献数: 5

GPU acceleration of four-center (4C) inter-fragment Coulomb interaction term (IFC) for OpenFMO, a fragment molecular orbital calculation program, has been implemented and its performance was examined. FMO calculation has two time-consuming steps: Fock matrix construction and IFC calculation, and in our previous letter, it was reported that the former is successfully accelerated with our GPU-enable code. The 4C-IFC calculation is the core part of the latter and its code is similar to that of Fock matrix construction. In this letter, we briefly describe the GPU-accelerated 4C-IFC calculation routine, and report a performance benchmark for GPU-accelerated FMO calculation. The GPU-accelerated program shows 3.3× speedups from CPU only FMO-HF/6-31G (d) calculation for 642 atomic protein on 8 nodes of HA-PACS base cluster.

2018-01-07 10:09:05
2 + 0 Twitter

1 0 0 0 データ利活用に向けた仮想化プラットフォームmdxの基本性能評価

著者: 塙敏博中村遼空閑洋平杉木章義田浦健次朗
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2022-HPC-183, no.7, pp.1-9, 2022-03-10

mdx は,Society5.0 で目指しているデータの利活用に向けた高性能,柔軟かつセキュアなプラットフォームであり,全国 9 国立大学 2 国立研究所の共同運営による稼働を始めている.本稿では,マルチテナントに対応した仮想化プラットフォームである mdx の概要について紹介し,主に各種ストレージの基本性能について述べる.さらに,mdx におけるソフトウェア基盤整備として,仮想マシンテンプレートと構成管理ツール,Kubernetes によるコンテナ環境について述べる.

2022-03-24 20:11:44
1 + 0 Twitter

http://id.nii.ac.jp/1001/00217377/

1 0 0 0 OpenMPを用いたGPUオフローディングの有効性の評価

著者: 河合直聡三木洋平星野哲也塙敏博中島研吾
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2022-HPC-183, no.18, pp.1-9, 2022-03-10

限られた電力,設置面積で最大の性能を得られるスーパーコンピュータシステムを実現するためには,GPU 等の演算加速装置の導入が不可避となりつつある.汎用 CPU 向けに Fortran や C/C++ で記述され,OpenMP で並列化されたプログラムを CUDA 等を使って GPU 向けに書き直すことはコストがかかる.OpenMP にはバージョン 4.0 以降は GPU 等でプログラムを実行するオフローディング機能がサポートされている.本研究では,この機能を用いて,演算律速なアプリケーションである N 体計算およびメモリ律速なアプリケーションである ICCG 反復法に適用し,NVIDIA A100,AMD MI100 上での性能評価を実施した.結果,N 体計算では A100 上では CUDA 実装の 58.3%,MI100 上では HIP 実装の 71.9% の演算性能を確認した.また,ICCG 法では Stream Triad ベンチマークで計測したメモリースループットの 88%(A100)と 53%(MI100)を確認した.以上の結果から,OpenMP での GPU オフローディングは,MI100 上での ICCG 法を除いて,実用的な範囲と考える.

2022-03-18 12:16:54
1 + 0 Twitter

http://id.nii.ac.jp/1001/00217388/

1 0 0 0 OA データ解析・シミュレーション融合スーパーコンピュータシステムReedbush-Uの性能評価

著者: 塙敏博中島研吾大島聡史伊田明弘星野哲也田浦健次朗
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2016-HPC-156, no.10, pp.1-10, 2016-09-08

東京大学情報基盤センターでは,データ解析・シミュレーション融合スーパーコンピュータシステム Reedbush を導入し,2017 年 3 月より全系稼働開始予定である.Reedbush システムは,Intel Xeon E5 (Broadwell-EP) プロセッサに加えて NVIDIA Tesla P100 (Pascal) GPU を一部計算ノードに搭載する他,高速ファイルキャッシュシステムや,InfiniBand EDR などを始めとして導入時点で最新の技術を集めたシステムである.本稿では 2016 年 7 月から稼働を開始した汎用 CPU のみからなる Reedbush-U サブシステムの性能について報告する.

2020-10-08 23:45:00
1 はてなブックマーク

http://id.nii.ac.jp/1001/00174434/

1 0 0 0 低精度演算とアプリケーション性能

著者: 中島研吾坂本龍一星野哲也有間英志塙敏博近藤正章
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2020-HPC-174, no.5, pp.1-9, 2020-05-06

近年,科学技術計算において,低精度演算を積極的に活用することにより,計算時間を短縮する試みが活発に行われている.また,低精度演算による計算の精度を保証するための実用的手法についても研究が進められている.本研究では,アプリケーションの実装方法,問題規模と低精度演算による性能改善の関係に注目し,様々なハードウェア環境下での検討を実施した.

2020-05-07 02:09:02
1 + 0 Twitter

http://id.nii.ac.jp/1001/00204393/

1 0 0 0 OA FPGAを用いた階層型行列ベクトル積

著者: 塙敏博伊田明弘大島聡史河合直聡
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2016-HPC-155, no.40, pp.1-9, 2016-08-01

近年,FPGA (Field Programmable Gate Array) に対して新たな高性能計算向けのハードウェアとして注目が集まっている.FPGA は対象とする処理に合わせた最適な回路構成を用いることで高い性能や高い電力あたり性能を得られる可能性がある.さらに OpenCL を用いてプログラムコードの形で記述するだけで,FPGA 上のハードウェアとして容易に実現が可能な環境が整ってきた.本研究では,階層型行列における行列ベクトル積演算を対象に,FPGA 上に実装を行う.階層型行列は,小さな密行列と低ランク近似行列から構成される.階層型行列ベクトル積を行うには,これら構成行列に依存して入り組んだ処理が必要となる.このような問題に対して OpenCL を用いて FPGA 向けの実装を行い,コードの最適化方法と性能について比較する.

2019-11-18 15:30:00
1 はてなブックマーク

http://id.nii.ac.jp/1001/00174120/

1 0 0 0 OA GMPI:GPUクラスタにおけるGPUセルフMPIの提案

著者: 桑原悠太塙敏博朴泰祐
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2015-HPC-151, no.12, pp.1-8, 2015-09-23

近年,GPU クラスタでは,GPU プログラミング環境として CUDA (Compute Unified Device Architecture) が標準的に用いられている.GPU クラスタ上での並列アプリケーションでは,CUDA 環境おいて,ノードを跨ぐ GPU 間通信が発生し,MPI などによりホスト CPU が処理するのが一般的である.そのため,通信が発生する毎に GPU 上の CUDA カーネルからホストに一旦制御を戻す必要があり,カーネル関数の起動や同期に伴うオーバーヘッドが生じる.特に並列処理における通信粒度が細かいほど,カーネル関数の起動回数も増え,オーバーヘッドも増加する.それだけでなく,プログラミングのコストが高く,CPU 向け MPI プログラムを GPU 並列化する場合にソースコードが煩雑になりやすいといった生産性の低下も問題となっている.これらの問題を解決するために,本研究では GPU カーネル内から MPI 通信の起動を可能とする並列通信システム “GMPI” を提案・開発する.これにより,並列 GPU プログラミングを簡単化し,GPU カーネルの起動や同期に伴うオーバーヘッド削減による並列処理効率の向上を目指す.本稿では,GMPI の実装と,Ping-Pong 通信および姫野ベンチマークの性能評価を行う.現状では性能最適化やチューニングが十分でなく,Ping-Pong 通信では従来方式とほぼ同等の性能であるが,姫野ベンチマークでは従来手法の約半分の性能が得られている.

2018-05-15 17:16:16
1 + 0 Twitter

http://id.nii.ac.jp/1001/00145062/

1 0 0 0 ICCG法ソルバーのIntel Xeon Phi向け最適化

著者: 中島研吾大島聡史塙敏博星野哲也伊田明弘
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日: vol.2016-HPC-157, no.16, pp.1-8, 2016-12-14

SELL-C-σ 法は疎行列演算の性能を高める行列格納手法として注目されているが,これまでは専ら疎行列ベクトル積に適用されてきた.科学技術計算において広く使用されている ICCG 法は前進後退代入,不完全コレスキー分解等のデータ依存性を有するプロセスを含むため,多色順序付け等によって並列性を抽出する必要がある.本研究は世界でも初めて,ICCG 法に SELL-C-σ 法を適用した事例である.Intel Xeon Phi (Knights Corner,Knights Landing) 上での性能評価を実施し,特に Knights Landing 上では従来手法と比較して高い性能改善を達成することができた.

2016-12-27 15:54:20
1 + 0 Twitter

http://id.nii.ac.jp/1001/00176349/

1 0 0 0 マルチプロセッサシステムシミュレータ構築支援スーパスカラプロセッサモデルの開発(コンピュータシステム)

著者: 田辺靖貴塙敏博天野英晴
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日: vol.90, no.6, pp.1428-1444, 2007-06-01
参考文献数: 9

詳細な性能解析,事前性能予測などを目的に,マルチプロセッサシステムを含めたコンピュータシステムのシミュレータを構築する際に利用可能なスーパスカラプロセッサのシミュレーションモデルとしてISIS-SimpleScalarを開発した.ISIS-SimpleScalarは,シミュレータ構築をサポートするライブラリとして利用可能で,マルチプロセッサシステムでの利用に対応し,スーパスカラプロセッサの動作を詳細にシミュレーション可能なプロセッサモデルである.ISIS-SimpleScalarは,SimpleScalarのsim-outorderモデルを元に開発を行ったが,命令のシミュレーション方法や,共有メモリアクセス要求を外部へ発行するようにしたりといったような変更が必要であった.評価,検証を通し,実装されたプロセッサモデルは,動作速度が低速ではあるものの,スーパスカラプロセッサの動作を反映しつつマルチプロセッサシステムをシミュレーションすることが可能で,シミュレータ構築時の実装コストを低減させられることも示す.

2010-01-31 11:00:21
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110007380738