文献一覧: 南一生 (著者)

2 0 0 0 スーパーコンピュータ「京」の構成と評価

著者: 清水俊幸安島雄一郎吉田利雄安里彰志田直之三浦健一住元真司長屋忠男三吉郁夫青木正樹原口正寿山中栄次宮崎博行草野義博新庄直樹追永勇次宇野篤也黒川原佳塚本俊之村井均庄司文由井上俊介黒田明義寺井優晃長谷川幸弘南一生横川三津夫
出版者: The Institute of Electronics, Information and Communication Engineers
雑誌: 電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日: vol.J96-D, no.10, pp.2118-2129, 2013-10-01

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,高いスケーラビリティのインターコネクトの専用開発,並列度の爆発に抗する技術の導入,高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.

2014-06-17 17:41:18
2 + 1 Twitter

http://search.ieice.org/bin/summary.php?id=j96-d_10_2118&category=D&year=2013&lang=J&abst=

1 0 0 0 スーパーコンピュータ「京」の構成と評価 (システム開発論文特集)

著者: 清水俊幸安島雄一郎吉田利雄安里彰志田直之三浦健一住元真司長屋忠男三吉郁夫青木正樹原口正寿山中栄次宮崎博行草野義博新庄直樹追永勇次宇野篤也黒川原佳塚本俊之村井均庄司文由井上俊介黒田明義寺井優晃長谷川幸弘南一生横川三津夫
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日: vol.96, no.10, pp.2118-2129, 2013-10

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,(1)汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,(2)高いスケーラビリティのインターコネクトの専用開発,(3)並列度の爆発に抗する技術の導入,(4)高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.

2019-02-20 05:38:02
1 + 2 Twitter

https://ci.nii.ac.jp/naid/110009674088

1 0 0 0 キャッシュの効果を加えたルーフラインモデルの拡張によるプログラムの性能見積り

著者: 南一生井上俊介千葉修一横川三津夫
出版者: 一般社団法人情報処理学会
雑誌: 研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日: vol.2014, no.30, pp.1-9, 2014-12-02

プログラムの実行性能限界を見積もるために,プロセッサのピーク性能,メモリバンド幅,Operational Intensity(Flop/Byte) をパラメータとしたルーフラインモデルが提案されている.ルーフラインモデルは,メモリネックのプログラムの場合に見積り性能と実測性能が良く一致するが,キャッシュアクセスが増えてくると,見積り性能と実測性能が乖離してくる.本報告では,キャッシュアクセスが増大するカーネルプログラムに対し,コーディングに基づく実行性能の見積もり方法を提案する.また,いくつかのカーネルループに対し,スーパーコンピュータ「京」上の実行性能の評価を行った結果,本方法が実効性能見積もりに適用できることを明らかにした.The Roofline models have been proposed in order to estimate the marginal performance of programs based on some features of computer systems such as peak performance, memory bandwidth, and operational intensity. The estimated performance by the model is in good agreement with the measured performance in the case that programs access memory devices directly. However, a difference between the estimated performance and the measured performance appears in the case that cache accesses of the program increase. In this paper, we extended the roofline model to a new one which can apply to a performance estimation of programs in which many cache accesses occur. It is shown that the new model can estimate the sustained performance of various kernel loops on the K computer by comparing with measured performance.

2015-01-15 09:30:56
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110009850792

1 0 0 0 キャッシュの効果を加えたルーフラインモデルの拡張によるプログラムの性能見積り

著者: 南一生井上俊介千葉修一横川三津夫
出版者: 一般社団法人情報処理学会
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日: vol.2014, no.30, pp.1-9, 2014-12-02

2015-01-15 09:30:47
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110009850824

1 0 0 0 スーパーコンピュータ「京」における地震動シミュレーションコードの高性能化

著者: 井上俊介堤重信前田拓人南一生
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日: vol.6, no.3, pp.22-30, 2013-09-25

理化学研究所では,スーパーコンピュータ「京」の高性能化を目的とし,6本の重点アプリケーションを選定し,高性能化,高並列化を進めてきた.うち地球科学の分野から選択された地震動シミュレーションコードであるSeism3Dについては,比較的高いByte/Flop値を要求する演算と,隣接プロセス間のみの通信という特徴があげられる.よって,Seism3Dの高性能化,高並列化のポイントとして,メモリバンド幅を最大限に生かすこと,キャッシュの効率的な利用をすること,6次元メッシュ上での最適な隣接通信を実現すること,に絞られる.我々はコードの持つ要求Byte/Flopから求まるピーク比性能の推定を実施し,詳細プロファイラ機能を活用することにより問題点を把握し,実測,チューニングを実施し,CPU単体性能向上策の検証と通信部の検証を進めた結果,82,944並列で理論ピーク比17.9%(1.9PFLOPS)に達したため,本稿で報告する.In order to optimize performance of the K computer, we selected six applications from various scientific fields. We optimized CPU performance and massively parallelization to them. Seism3D which was selected from earth science field is seismic wave simulation code. It has calculation parts which demands high Byte/Flop and communication parts between neighborhood processes. So optimization points are using enough memory bandwidth, using cache effectively and realization of optimal neighborhood communications on six-dimensional mesh/torus network. We estimated theoretical performance from required Byte/Flop of code and utilized advanced profiler to have a clear grasp of bottle neck. As a result, we achieved 17.9% per peak performance by using 82,944 cpus.

2013-12-27 15:23:35
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110009606657