著者
似鳥 啓吾 牧野 淳一郎 阿部 譲司
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.SIG8(ACS18), pp.54-61, 2007-05-15

本論文では,400個のデュアルコアOpteronプロセッサを用いたCray XD1システム上での高性能な N体シミュレーションコードの実装と,64k粒子の星団のシミュレーションでの性能について述べる.これまでにも多くの天体物理学的 $N$ 体計算の並列化が報告されているが.その中でも数十プロセッサ以上を用いた実装の性能評価には,大きな粒子数が使われる傾向がある.たとえば,これまでのゴードン・ベル賞へのエントリでは,少なくとも70万粒子が用いられている.この傾向の理由は,並列化効率にある.というのも,大規模並列機で小さな粒子数で性能を出すのは非常に困難であるからである.しかしながら,多くの科学的に重要な問題では計算コストは O(N^3.3) に比例するため,比較的小さな粒子数の計算に大規模並列計算機を用いることが非常に重要である.我々は,64k粒子のO(N^2)直接計算独立時間刻み法の計算で2.03Tflops(対ピーク57.7%)の性能を実現した.これまでの64k粒子での同様の計算における最大の効率は,128プロセッサのCray T3E-900での7.8%(9Gflops)である.今回の実装では従来の方法より高スケーラブルな2次元並列アルゴリズムを用いている.さらに今回のような高性能を達成するためにはCray XD1の低レイテンシネットワークが本質的に重要であった.
著者
台坂 博 大槻 圭史 岩澤 全規 牧野 淳一郎 似鳥 啓吾
出版者
一橋大学
雑誌
基盤研究(C)
巻号頁・発行日
2018-04-01

本研究では、土星リングに代表されるリングに関する諸問題(構造や起源)の解決を図るためにこれまでにない大粒子数を用いた惑星リング全系のN体シミュレーションを可能とする方法を確立し、その手法を用いたシミュレーションを実施し、その有用性を実証することを目的としている。令和2年度は、引き続き、開発している数値計算コードの検証作業を行った。前年度に引き続き、光学的に薄いリング系におけるリング粒子系の熱速度の進化を、先行論文の結果と比較することで検証を行っているが、現在のところ、再現性の問題の解決にいたっていない。粒子同士の衝突モデルの変更の検討も行っているが、変更には数値計算コードの高速化の鍵となる部分に大幅な修正が必要となるため、その変更を行うかも含めた検討を行っている。
著者
金森 逸作 中村 宜文 似鳥 啓吾 辻 美和子 向井 優太 三吉 郁夫 松古 栄夫 石川 健一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2020-HPC-177, no.22, pp.1-8, 2020-12-14

格子 QCD は,隣接通信を多用する典型的な HPC 計算であり,線形ソルバー内での縮約計算の頻度も高い.そのため,スーパーコンピュータ「富岳」開発において,ハードウェア・システムソフトウェア・アプリケーションソフトウェアが共同して開発にあたるコデザインの対象の一つになっている.本講演では,コデザインの成果を踏まえて実現した,富岳向けの格子 QCD 用疎行列線形ソルバーにおける通信の高速化について報告する.隣接通信には低レイテンシの uTofu インターフェースを用いており,MPI 持続通信を用いるよりも小さな通信オーバーヘッド,きめ細かな通信リソースの割り付けを実現している.また内積計算に必要な少数要素の縮約についても,Tofu バリアと呼ばる機能で高速化を実現している.
著者
似鳥 啓吾 牧野 淳一郎 阿部 譲司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.8, pp.54-61, 2007-05-15

本論文では,400個のデュアルコアOpteronプロセッサを用いたCray XD1システム上での高性能な N体シミュレーションコードの実装と,64k粒子の星団のシミュレーションでの性能について述べる.これまでにも多くの天体物理学的 $N$ 体計算の並列化が報告されているが.その中でも数十プロセッサ以上を用いた実装の性能評価には,大きな粒子数が使われる傾向がある.たとえば,これまでのゴードン・ベル賞へのエントリでは,少なくとも70万粒子が用いられている.この傾向の理由は,並列化効率にある.というのも,大規模並列機で小さな粒子数で性能を出すのは非常に困難であるからである.しかしながら,多くの科学的に重要な問題では計算コストは O(N^3.3) に比例するため,比較的小さな粒子数の計算に大規模並列計算機を用いることが非常に重要である.我々は,64k粒子のO(N^2)直接計算独立時間刻み法の計算で2.03Tflops(対ピーク57.7%)の性能を実現した.これまでの64k粒子での同様の計算における最大の効率は,128プロセッサのCray T3E-900での7.8%(9Gflops)である.今回の実装では従来の方法より高スケーラブルな2次元並列アルゴリズムを用いている.さらに今回のような高性能を達成するためにはCray XD1の低レイテンシネットワークが本質的に重要であった.In this paper, we describe the implimentation and performance of N-body simulation code for a star cluster with 64k stars on a Cray XD1 system with 400 dual-core Opteron processors. There have been many reports on the parallelization of astrophysical N-body simulations. For parallel implementations on more than a few tens of processors, performance was usually measured for very large number of particles. For example, all previous entries for the Gordon-Bell prizes used at least 700\,k particles. The reason for this preference of large numbers of particles is the parallel efficiency. It is very difficult to achieve high performance on large parallel machines, if the number of particles is small. However, for many scientifically important problems the calculation cost scales as O(N^3.3), and it is very important to use large machines for relatively small number of particles. We achieved 2.03Tflops, or 57.7% of the theoretical peak performance, using a direct O(N^2) calculation with the individual timestep algorithm, on 64k particles. The best efficiency previously reported on similar calculation with 64K or smaller number of particles is 7.8% (9Gflops) on Cray T3E-900 with 128 processors. Our implementation is based on highly scalable two-dimensional parallelization scheme, and low-latency communication network of Cray XD1 turned out to be essential to achieve this level of performance.