著者
松本 幸 安達 知也 住元 真司 曽我 武史 南里 豪志 宇野 篤也 黒川 原佳 庄司 文由 横川 三津夫
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2012, pp.245-253, 2012-05-09

本論文では,82,944台の計算ノードをTofuインターコネクトと呼ばれる6次元の直接網で結合した「京」におけるMPI集団通信の高速化について述べる.従来のMPIライブラリには,トポロジを考慮したアルゴリズムが存在しないため,「京」のような直接網において性能を出すことができない.そのため,Trinaryx3と呼ばれるAllreduceを設計し,「京」向けのMPIライブラリに実装した.Trinaryx3アルゴリズムは,トーラス向けに最適化されており,「京」の特長のひとつである複数RDMAエンジンを活用することができる.実装を評価した結果,既存のトポロジを考慮していないアルゴリズムと比較して,5倍のバンド幅の向上を確認した.
著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J96-D, no.10, pp.2118-2129, 2013-10-01

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,高いスケーラビリティのインターコネクトの専用開発,並列度の爆発に抗する技術の導入,高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.96, no.10, pp.2118-2129, 2013-10

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,(1)汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,(2)高いスケーラビリティのインターコネクトの専用開発,(3)並列度の爆発に抗する技術の導入,(4)高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
今出 広明 平本 新哉 三浦 健一 住元 真司 黒川 原佳 横川 三津夫 渡邊 貞
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2012, pp.93-100, 2012-01-17

本論文では,RMATT(Rank Map Automatic Tuning Tool) における実行時間の高速化について述べる.RMATT は MPI アプリケーションにおけるランク配置を最適化することで通信処理時間を短縮することができるが,実行に長時間を要することが問題であった.この問題を解決するため,変更されたランクの通信処理のみを再計算する他,通信しないランク間のテーブル作成を省くことで計算量を大幅に削減する方法を開発した.評価の結果,4,096 ランクの Allgather bruck アルゴリズムの最適化に従来 16 時間かかっていた実行時間を 7.4 分に短縮できることを確認した.また,NAS Parallel Benchmark におけるクラス B,プロセス数 1,024 の CG に本 RMATT を適用し,京コンピュータ上において CG の実行時間を 7% 削減することを確認した.
著者
松本 幸 安達 知也 田中 稔 住元 真司 曽我 武史 南里 豪志 宇野 篤也 黒川 原佳 庄司 文由 横川 三津夫
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2011-ARC-197, no.6, pp.1-10, 2011-11-21

本報告では,8 万台以上のノードを直接網で結合した 「京」 における MPI 集団通信の高速化について述べる.従来の MPI 集団通信アルゴリズムは,間接網向けのアルゴリズムが主体であり,これを直接網に適用してもメッセージの衝突のため効率的な通信ができない.このため,高い通信性能を得るためには直接網を意識した集団通信アルゴリズムが必須となる.そこで我々は,トーラス向け Allreduce アルゴリズム Trinaryx3 Allreduce を設計し,「京」 向けの MPI ライブラリに実装した.Trinaryx3 Allreduce は,「京」 の特長である複数 RDMA エンジンを同時に活用することができる.実装を評価した結果,既存の間接網向けアルゴリズムと比較して,5 倍程度バンド幅が向上することを確認した.