著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J96-D, no.10, pp.2118-2129, 2013-10-01

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,高いスケーラビリティのインターコネクトの専用開発,並列度の爆発に抗する技術の導入,高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.96, no.10, pp.2118-2129, 2013-10

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,(1)汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,(2)高いスケーラビリティのインターコネクトの専用開発,(3)並列度の爆発に抗する技術の導入,(4)高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
南 一生 井上 俊介 千葉 修一 横川 三津夫
出版者
一般社団法人情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014, no.30, pp.1-9, 2014-12-02

プログラムの実行性能限界を見積もるために,プロセッサのピーク性能,メモリバンド幅,Operational Intensity(Flop/Byte) をパラメータとしたルーフラインモデルが提案されている.ルーフラインモデルは,メモリネックのプログラムの場合に見積り性能と実測性能が良く一致するが,キャッシュアクセスが増えてくると,見積り性能と実測性能が乖離してくる.本報告では,キャッシュアクセスが増大するカーネルプログラムに対し,コーディングに基づく実行性能の見積もり方法を提案する.また,いくつかのカーネルループに対し,スーパーコンピュータ 「京」 上の実行性能の評価を行った結果,本方法が実効性能見積もりに適用できることを明らかにした.The Roofline models have been proposed in order to estimate the marginal performance of programs based on some features of computer systems such as peak performance, memory bandwidth, and operational intensity. The estimated performance by the model is in good agreement with the measured performance in the case that programs access memory devices directly. However, a difference between the estimated performance and the measured performance appears in the case that cache accesses of the program increase. In this paper, we extended the roofline model to a new one which can apply to a performance estimation of programs in which many cache accesses occur. It is shown that the new model can estimate the sustained performance of various kernel loops on the K computer by comparing with measured performance.
著者
南 一生 井上 俊介 千葉 修一 横川 三津夫
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.30, pp.1-9, 2014-12-02

プログラムの実行性能限界を見積もるために,プロセッサのピーク性能,メモリバンド幅,Operational Intensity(Flop/Byte) をパラメータとしたルーフラインモデルが提案されている.ルーフラインモデルは,メモリネックのプログラムの場合に見積り性能と実測性能が良く一致するが,キャッシュアクセスが増えてくると,見積り性能と実測性能が乖離してくる.本報告では,キャッシュアクセスが増大するカーネルプログラムに対し,コーディングに基づく実行性能の見積もり方法を提案する.また,いくつかのカーネルループに対し,スーパーコンピュータ 「京」 上の実行性能の評価を行った結果,本方法が実効性能見積もりに適用できることを明らかにした.The Roofline models have been proposed in order to estimate the marginal performance of programs based on some features of computer systems such as peak performance, memory bandwidth, and operational intensity. The estimated performance by the model is in good agreement with the measured performance in the case that programs access memory devices directly. However, a difference between the estimated performance and the measured performance appears in the case that cache accesses of the program increase. In this paper, we extended the roofline model to a new one which can apply to a performance estimation of programs in which many cache accesses occur. It is shown that the new model can estimate the sustained performance of various kernel loops on the K computer by comparing with measured performance.
著者
井上 俊介 堤 重信 前田 拓人 南 一生
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.6, no.3, pp.22-30, 2013-09-25

理化学研究所では,スーパーコンピュータ「京」の高性能化を目的とし,6本の重点アプリケーションを選定し,高性能化,高並列化を進めてきた.うち地球科学の分野から選択された地震動シミュレーションコードであるSeism3Dについては,比較的高いByte/Flop値を要求する演算と,隣接プロセス間のみの通信という特徴があげられる.よって,Seism3Dの高性能化,高並列化のポイントとして,メモリバンド幅を最大限に生かすこと,キャッシュの効率的な利用をすること,6次元メッシュ上での最適な隣接通信を実現すること,に絞られる.我々はコードの持つ要求Byte/Flopから求まるピーク比性能の推定を実施し,詳細プロファイラ機能を活用することにより問題点を把握し,実測,チューニングを実施し,CPU単体性能向上策の検証と通信部の検証を進めた結果,82,944並列で理論ピーク比17.9%(1.9PFLOPS)に達したため,本稿で報告する.In order to optimize performance of the K computer, we selected six applications from various scientific fields. We optimized CPU performance and massively parallelization to them. Seism3D which was selected from earth science field is seismic wave simulation code. It has calculation parts which demands high Byte/Flop and communication parts between neighborhood processes. So optimization points are using enough memory bandwidth, using cache effectively and realization of optimal neighborhood communications on six-dimensional mesh/torus network. We estimated theoretical performance from required Byte/Flop of code and utilized advanced profiler to have a clear grasp of bottle neck. As a result, we achieved 17.9% per peak performance by using 82,944 cpus.