著者
松本 幸 安達 知也 住元 真司 曽我 武史 南里 豪志 宇野 篤也 黒川 原佳 庄司 文由 横川 三津夫
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2012, pp.245-253, 2012-05-09

本論文では,82,944台の計算ノードをTofuインターコネクトと呼ばれる6次元の直接網で結合した「京」におけるMPI集団通信の高速化について述べる.従来のMPIライブラリには,トポロジを考慮したアルゴリズムが存在しないため,「京」のような直接網において性能を出すことができない.そのため,Trinaryx3と呼ばれるAllreduceを設計し,「京」向けのMPIライブラリに実装した.Trinaryx3アルゴリズムは,トーラス向けに最適化されており,「京」の特長のひとつである複数RDMAエンジンを活用することができる.実装を評価した結果,既存のトポロジを考慮していないアルゴリズムと比較して,5倍のバンド幅の向上を確認した.
著者
森江 善之 南里 豪志 安島 雄一郎 本田 宏明 曽我 武史 小林 泰三 住元 真司
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2015-HPC-148, no.33, pp.1-6, 2015-02-23

ACE (Advanced Communication for Exa) プロジェクトでは,省メモリかつ低遅延な低レベル通信ライブラリ ACP (Advanced Communication Primitives) の開発を実施している.今回は,HPC 分野で幅広く利用される InfiniBand を用いて,ACP 基本層を実装した.InfiniBand での ACP 基本層の実装方法の報告を行う.また,実装した ACP 基本層のメモリ使用量と通信性能の評価を行った.今回の評価では, InfiniBand の接続資源がメモリ使用量の多く占めることがわかった.また,初期実装の段階で中メッセージサイズ以上で Open MPI と同等の通信性能を示し,最大 20%の性能向上を示した.また,小メッセージサイズでの通信性能の問題を確認することが出来た.
著者
松本 幸 安達 知也 田中 稔 住元 真司 曽我 武史 南里 豪志 宇野 篤也 黒川 原佳 庄司 文由 横川 三津夫
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2011-ARC-197, no.6, pp.1-10, 2011-11-21

本報告では,8 万台以上のノードを直接網で結合した 「京」 における MPI 集団通信の高速化について述べる.従来の MPI 集団通信アルゴリズムは,間接網向けのアルゴリズムが主体であり,これを直接網に適用してもメッセージの衝突のため効率的な通信ができない.このため,高い通信性能を得るためには直接網を意識した集団通信アルゴリズムが必須となる.そこで我々は,トーラス向け Allreduce アルゴリズム Trinaryx3 Allreduce を設計し,「京」 向けの MPI ライブラリに実装した.Trinaryx3 Allreduce は,「京」 の特長である複数 RDMA エンジンを同時に活用することができる.実装を評価した結果,既存の間接網向けアルゴリズムと比較して,5 倍程度バンド幅が向上することを確認した.