著者
住元 真司 稲田 由江 三輪 英樹 三吉 郁夫
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-172, no.6, pp.1-6, 2019-12-11

本稿では,Arm SVE プロセッサである A64FX 上で可変ベクトル長バイナリを用いた著名 HPC ベンチマークプログラムの評価について報告する.A64FX は Arm SVE アーキテクチャに対応しているため実行時に SIMD ベクトル長を変更できる上,独自にメモリバンド幅も変更可能である.これらの機能を用いて著名ベンチマークの実行特性を評価する.
著者
住元真司 安島雄一郎 佐賀一繁 野瀬貴史 三浦健一 南里豪志
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014-HPC-143, no.8, pp.1-7, 2014-02-24

エクサスケールシステムでは、極限までの通信遅延の削減を省メモリに実現する必要がある。本論文では、エクサスケール通信をめざして開発中の ACP スタックの設計についての設計方針と ACP スタックの概要について述べる。
著者
中島 耕太 成瀬 彰 住元 真司 久門 耕一
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2011, pp.126-135, 2011-05-18

本論文では,通信量バランスの良いデッドロック回避ルーティング手法であるターン追加法を提案する.本手法は,ターン禁止法の一種であり,スイッチの入力ポートと出力ポートの組であるターンの使用を部分的に禁止してデッドロックを回避する手法である.全ターンを禁止した状態を初期状態とし,通信量の大きいターンから順に許可判定を行い,そのターンを使用してもデッドロックが生じない場合は当該ターンを許可する.ターン単位で禁止/許可を判別するため,既存手法と比較するとネットワークの一部分や一部のスイッチに禁止ターンが偏りやすくなる傾向は低くなる.このため,通信量バランスの良いルーティングを実現しやすい.本手法をランダムネットワークと Fat Tree ベースのクラスタネットワークに適用し,評価した.ランダムネットワークでは,Up*/Down* 法と比較してスループットを最大 2.05 倍改善し,TP 法と比較してほぼ同性能であることを確認した.また,クラスタネットワークでは,8192 ノード構成の Fat Tree を 2 つ接続した場合,Fat Tree を接続する経路において,TP 法と比較して,スループットを最大 4.77 倍改善できることを確認した..
著者
松本 幸 安達 知也 住元 真司 曽我 武史 南里 豪志 宇野 篤也 黒川 原佳 庄司 文由 横川 三津夫
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2012, pp.245-253, 2012-05-09

本論文では,82,944台の計算ノードをTofuインターコネクトと呼ばれる6次元の直接網で結合した「京」におけるMPI集団通信の高速化について述べる.従来のMPIライブラリには,トポロジを考慮したアルゴリズムが存在しないため,「京」のような直接網において性能を出すことができない.そのため,Trinaryx3と呼ばれるAllreduceを設計し,「京」向けのMPIライブラリに実装した.Trinaryx3アルゴリズムは,トーラス向けに最適化されており,「京」の特長のひとつである複数RDMAエンジンを活用することができる.実装を評価した結果,既存のトポロジを考慮していないアルゴリズムと比較して,5倍のバンド幅の向上を確認した.
著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J96-D, no.10, pp.2118-2129, 2013-10-01

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,高いスケーラビリティのインターコネクトの専用開発,並列度の爆発に抗する技術の導入,高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
堀 敦史 手塚 宏史 高橋 俊行 住元 真司 曽田哲之 原田 浩 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.66, pp.83-88, 1999-08-02
被引用文献数
3

SCoreクラスタシステムソフトウェアは,Myrinetを用いたクラスタを対象とした高性能かつスケーラブルな並列プログラミング環境のソフトウェアパッケージである.本稿は,Myrinet以外のネットワーク,SMPクラスタ,及びクラスタ化されたクラスタという3つの新たな形態のクラスタにSCoreを対応させる方法について提案するものである."Composite"と呼ばれる仮想ネットワークデバイスを設け,compositeネットワークデバイスが複数の実ネットワークデバイスとルーティングテーブルを持つことで,これらの形態のクラスタに対応可能であることを示す.ここで提案された方法は,見方を変えれば,ヘテロなネットワーク構成のクラスタへの対応と考えることができる.提案された方法は,現在SCore 3.0として開発が進められている.A high performance scalable cluster system software package, SCore, was designed for clusters using Myrinet. To adapt it to a cluster using other networks, an SMP cluster, and a cluster of clusters, the notion of "composite" is proposed in this paper. The "composite" is a virtual network device which consists of a routing table and several physical network devices. From the viewpoint of seamless computing, the "composite" is to handle heterogeneity. New SCore 3.0 is under development for implementing the "composite".
著者
小田和 友仁 住元 真司 堀 敦史 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [システムソフトウェアとオペレーティング・システム]
巻号頁・発行日
vol.2013, no.1, pp.1-7, 2013-04-18

将来の High Performance Computing (HPC) システムではメニーコア化・NUMA 化が進み,これらを考慮したシステムソフトウェアが重要になる.本稿では NUMA 型のメニーコアシステムにおける並列分散 I/O の実現に向けた予備検証の結果と考察について述べる.予備検証では,NUMA 環境での性能律速要素と律速時の性能影響を確認するため,既存の NUMA 環境でキャッシュ I/O における read/write の I/O 性能を測定した.本稿では予備検証で得た結果をもとに,将来 HPC での最適化された並列分散 I/O を実現する上での最適な分散ポリシーについて議論する.
著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.96, no.10, pp.2118-2129, 2013-10

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,(1)汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,(2)高いスケーラビリティのインターコネクトの専用開発,(3)並列度の爆発に抗する技術の導入,(4)高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
成瀬 彰 中島 耕太 住元 真司 久門 耕一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2010-HPC-128, no.5, pp.1-8, 2010-12-09

本稿では、Fat-tree 構成の InfiniBand(IB) ネットワークにおける全対全通信時の Hot-spot 発生を回避する手法を提案·評価する。Fat-tree 構成の IB ネットワークでは、適切に使用する計算ノードを選択しないと、Hot-spot 発生により実行通信バンド幅が低下する。本稿では、任意の計算ノード割当てにおいて、全対全通信時の Hot-spot 発生を回避する手法を提案する。提案手法は、各計算ノードに複数の LID(Local Identifier) を割り当てる手法の一種である。全対全通信時の典型的な通信パターンであるシフト通信パターンに着目し、各計算ノード対に生成されるコネクション毎に、使用 LID を適切に選択することで、Hot-spot 発生を回避する。提案手法を OpenMPI で実装し、6-ary-2-tree トポロジーの Fat-tree 構成IBネットワークに接続した 30 ノードの PC クラスタシステムで性能を評価した。任意 16 ノードによる全対全通信性能を測定した結果、提案手法により全対全通信時の Hot-spot 発生を完全に回避できることを確認した。
著者
森江 善之 南里 豪志 安島 雄一郎 本田 宏明 曽我 武史 小林 泰三 住元 真司
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2015-HPC-148, no.33, pp.1-6, 2015-02-23

ACE (Advanced Communication for Exa) プロジェクトでは,省メモリかつ低遅延な低レベル通信ライブラリ ACP (Advanced Communication Primitives) の開発を実施している.今回は,HPC 分野で幅広く利用される InfiniBand を用いて,ACP 基本層を実装した.InfiniBand での ACP 基本層の実装方法の報告を行う.また,実装した ACP 基本層のメモリ使用量と通信性能の評価を行った.今回の評価では, InfiniBand の接続資源がメモリ使用量の多く占めることがわかった.また,初期実装の段階で中メッセージサイズ以上で Open MPI と同等の通信性能を示し,最大 20%の性能向上を示した.また,小メッセージサイズでの通信性能の問題を確認することが出来た.
著者
今出 広明 平本 新哉 三浦 健一 住元 真司 黒川 原佳 横川 三津夫 渡邊 貞
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2012, pp.93-100, 2012-01-17

本論文では,RMATT(Rank Map Automatic Tuning Tool) における実行時間の高速化について述べる.RMATT は MPI アプリケーションにおけるランク配置を最適化することで通信処理時間を短縮することができるが,実行に長時間を要することが問題であった.この問題を解決するため,変更されたランクの通信処理のみを再計算する他,通信しないランク間のテーブル作成を省くことで計算量を大幅に削減する方法を開発した.評価の結果,4,096 ランクの Allgather bruck アルゴリズムの最適化に従来 16 時間かかっていた実行時間を 7.4 分に短縮できることを確認した.また,NAS Parallel Benchmark におけるクラス B,プロセス数 1,024 の CG に本 RMATT を適用し,京コンピュータ上において CG の実行時間を 7% 削減することを確認した.
著者
松本 幸 安達 知也 田中 稔 住元 真司 曽我 武史 南里 豪志 宇野 篤也 黒川 原佳 庄司 文由 横川 三津夫
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2011-ARC-197, no.6, pp.1-10, 2011-11-21

本報告では,8 万台以上のノードを直接網で結合した 「京」 における MPI 集団通信の高速化について述べる.従来の MPI 集団通信アルゴリズムは,間接網向けのアルゴリズムが主体であり,これを直接網に適用してもメッセージの衝突のため効率的な通信ができない.このため,高い通信性能を得るためには直接網を意識した集団通信アルゴリズムが必須となる.そこで我々は,トーラス向け Allreduce アルゴリズム Trinaryx3 Allreduce を設計し,「京」 向けの MPI ライブラリに実装した.Trinaryx3 Allreduce は,「京」 の特長である複数 RDMA エンジンを同時に活用することができる.実装を評価した結果,既存の間接網向けアルゴリズムと比較して,5 倍程度バンド幅が向上することを確認した.
著者
住元真司 安島雄一郎 佐賀一繁 野瀬貴史 三浦健一 南里豪志
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.8, pp.1-7, 2014-02-24

エクサスケールシステムでは、極限までの通信遅延の削減を省メモリに実現する必要がある。本論文では、エクサスケール通信をめざして開発中の ACP スタックの設計についての設計方針と ACP スタックの概要について述べる。In communication on exascale system, low latency communication with reduction of memory usage is required. This paper discusses design policy of ACP stacks and overview for communication of exascale system.
著者
平井 浩一 小田和 友仁 岡本 高幸 二宮 温 住元 真司 高木 将通 Balazs Gerofi 山口 訓央 小倉 崇浩 亀山 豊久 堀 敦史 石川 裕
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2015-ARC-215, no.2, pp.1-8, 2015-05-19

将来の HPC 向けの OS としては,メニーコアへの最適化が必須となってきており,それを実現するための OS として McKernel を選択し,計算センターにおけるバッチジョブ運用への適応を進めている.本論文では,将来のスーパーコンピュータ上で,McKernel に適応したバッチジョブ運用を実現する場合の課題を述べ,現状の検討状況について述べる.
著者
成瀬 彰 住元 真司 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.99, pp.49-54, 2008-10-08
被引用文献数
2

本稿では メモリバンド幅ネックの流体アプリケーションを GPGPU 上で高速化する手法について述べる。 GPGPU としては CUDA 対応 GPU を対象とした。各種メモリアクセス性能調査結果より、安定して高いメモリバンド幅を実現するには、スレッド進行の同期化、アクセスパターンの局所化、スレッド数の最適化が重要であることが分かった。これに基づいて姫野ベンチマークを高速化した結果、 GeForce GTX 280 上で 69.7 GFLOPS の性能を達成した。これは従来実装と比べて 1.69 倍の性能であり、この性能達成時には 115 GB/s の実効メモリバンド幅が出ていたことを意味する。これは理論ピークメモリバンド幅の 81% に相当する。We present the acceleration technique of CFD (Computational Fluid Dynamics) on GPGPU, that needs high memory bandwidth. The memory bandwidth and latency of GPU are measured on various conditions, and it is clarified that following techniques are required to achieve high memory bandwidth on GPU: synchronization among threads, locality of memory accesses and appropriate number of threads. We've applied these techniques to Himeno benchmark program which is the kernel routine of CFD. Our accelerated code runs 69% faster than the existing implementation and attains 69.7 GFLOPS on GeForce GTX280, that corresponds to 115 GB/s in memory bandwidth.
著者
田辺 昇 池井 満 遠藤 敏夫 松岡 聡 畑崎 隆雄 住元 真司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CPSY, コンピュータシステム
巻号頁・発行日
vol.106, no.287, 2006-10-06

高バンド幅で低遅延のSAN (System Area Network)がHPC用途のPCクラスタのノード間インターコネクトとして広く使われるようになってきた。本パネルでは、SANを用いて、より進んだコンピュータシステムを研究開発するために必要な技術をハードウェア、ソフトウェアの両面から議論し、その将来像と究極の姿を議論する
著者
成瀬 彰 住元 真司 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.11, pp.62-70, 2004-10-15
参考文献数
16
被引用文献数
1

本論文では,PCクラスタのプロセッサとしてよく使用されるXeonプロセッサ向けのLinpackベンチマーク高速化手法について述べる.特に,Linpackベンチマーク実行時間の大半を占める倍精度行列積(DGEMM)の最適化手法について説明する.最適化はオープンソースの数値演算ライブラリであるATLASをベースに行い,キャッシュ容量,TLBエントリ数,システムバス負荷の均等化を考慮してDGEMMカーネルを作成し,それに合わせてDGEMMカーネル呼び出し部分を変更した.最適化したDGEMMを2.4 GHz Xeonプロセッサを搭載したFujitsu PRIMERGY L250で評価した結果,DGEMMそのものの性能を測定する正方行列積プログラ厶では4.33 GFlops(実行効率:90.2%)を記録した.また,Linpack ベンチマークでは4.13 GFlops(実行効率:86.0%)を記録した.これは従来最速とされていたGOTO BLAS を5%上回る性能である.In this paper, we explain the optimization technique of matrix multiplication (DGEMM) for Xeon processor, that is heavily used in Linpack benchmark. Our optimization technique is based on reducing cache misses and D-TLB misses and averaging FSB (Front Side Bus) loads. We have applied this technique to an open-source numerical library ATLAS. The benchmark results using our DGEMM implementation show better performance than GOTO BLAS that is famous for a fast DGEMM. On a Fujitsu PRIMERGY L250 system equipped with 2.4 GHz Xeon processors, performance of square matrix multiplication program attains 4.33 GFlops (90.2% efficiency) and performance of Linpack benchmark attains 4.13GFlops (86.0% efficiency).
著者
原田 浩 石川 裕 堀 敦史 手塚 宏史 住元 真司 高橋 俊行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.66, pp.89-94, 1999-08-02
被引用文献数
6

既存のUnixオペレーティングシステムと低通信遅延かつ高通信バンド幅を有するネットワークシステム上にSCASHと呼ぶソフトウエア分散共有メモリを開発している。SCASH上に、ページ管理ノードの動的再配置機構を実装し、SPLASH2のLUを用いて評価を行った。その結果、管理ノードをノードに固定的にラウンドロビンに配置した場合との比較では64台の実行で1.17倍の性能向上を達成したが、管理ノードを固定的に最適化した場合との比較では、0.722倍の性能を得るに留まった。We have been developing a software distributed shared memory system called SCASH on top of a Unix with a low latency and high bandwidth network system. A dynamic owner node reallocation mechanism is introduced to SCASH and evaluated using the LU benchmark from SPLASH2 suits. LU under the dynamic ower node reallocation mechanism is 1.17 times faster than that of using round robin fashion node allocation. It is 0.722 times faster than that of using statically optimized owner node.