- 著者
- 
             
             似鳥 啓吾
             
             牧野 淳一郎
             
             阿部 譲司
             
          
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
- 巻号頁・発行日
- vol.48, no.8, pp.54-61, 2007-05-15 
        本論文では,400個のデュアルコアOpteronプロセッサを用いたCray XD1システム上での高性能な N体シミュレーションコードの実装と,64k粒子の星団のシミュレーションでの性能について述べる.これまでにも多くの天体物理学的 $N$ 体計算の並列化が報告されているが.その中でも数十プロセッサ以上を用いた実装の性能評価には,大きな粒子数が使われる傾向がある.たとえば,これまでのゴードン・ベル賞へのエントリでは,少なくとも70万粒子が用いられている.この傾向の理由は,並列化効率にある.というのも,大規模並列機で小さな粒子数で性能を出すのは非常に困難であるからである.しかしながら,多くの科学的に重要な問題では計算コストは O(N^3.3) に比例するため,比較的小さな粒子数の計算に大規模並列計算機を用いることが非常に重要である.我々は,64k粒子のO(N^2)直接計算独立時間刻み法の計算で2.03Tflops(対ピーク57.7%)の性能を実現した.これまでの64k粒子での同様の計算における最大の効率は,128プロセッサのCray T3E-900での7.8%(9Gflops)である.今回の実装では従来の方法より高スケーラブルな2次元並列アルゴリズムを用いている.さらに今回のような高性能を達成するためにはCray XD1の低レイテンシネットワークが本質的に重要であった.In this paper, we describe the implimentation and performance of N-body simulation code for a star cluster with 64k stars on a Cray XD1 system with 400 dual-core Opteron processors. There have been many reports on the parallelization of astrophysical N-body simulations. For parallel implementations on more than a few tens of processors, performance was usually measured for very large number of particles. For example, all previous entries for the Gordon-Bell prizes used  at least 700\,k particles. The reason for this preference of large numbers of particles is the parallel efficiency. It is very difficult to achieve high performance on large parallel machines, if the number of particles is small. However, for many scientifically important problems the calculation cost scales as O(N^3.3), and it is very important to use large machines for relatively small number of particles. We achieved 2.03Tflops, or 57.7% of the theoretical peak performance, using a direct O(N^2) calculation with the individual timestep algorithm, on 64k particles. The best efficiency previously reported on similar calculation with 64K or smaller number of particles is 7.8% (9Gflops) on Cray T3E-900 with 128 processors. Our implementation is based on highly scalable two-dimensional parallelization scheme, and low-latency communication network of Cray XD1 turned out to be essential to achieve this level of performance.