著者
森下 浩二 横川 三津夫 宇野 篤也 石原 卓 金田 行雄
出版者
一般社団法人情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014, no.17, pp.1-5, 2014-12-02

現在日本最速のスーパーコンピュータである 「京」 を用いて,一様等方性乱流の超大規模直接数値シミュレーション (DNS) を実現するために,地球シミュレータ向けに開発された,フーリエ・スペクトル法に基づく一様等方性乱流の DNS コードの 「京」 への移植,及び最適化を行った.移植の際には,従来の 1 次元分割によるデータ分散手法から,より効率的な All-to-all 通信が可能であると考えられる 2 次元分割による手法へと変更を行った.その結果,「京」 の 192×128 ノードを用いて最大格子点数 122883 の超大規模 DNS の実現に成功した.これはプロダクトランとしては世界最大の一様等方性乱流の DNS である.ピーク性能比として,格子点数 61443,81923,122883 の DNS でそれぞれ 3.84%,3.14%,2.24% の実効性能が得られた.また,コードの更なる高効率化のために,乱流 DNS 特有のアルゴリズムに対する最適化を試み,その性能評価を行った.
著者
松本 幸 安達 知也 住元 真司 曽我 武史 南里 豪志 宇野 篤也 黒川 原佳 庄司 文由 横川 三津夫
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2012, pp.245-253, 2012-05-09

本論文では,82,944台の計算ノードをTofuインターコネクトと呼ばれる6次元の直接網で結合した「京」におけるMPI集団通信の高速化について述べる.従来のMPIライブラリには,トポロジを考慮したアルゴリズムが存在しないため,「京」のような直接網において性能を出すことができない.そのため,Trinaryx3と呼ばれるAllreduceを設計し,「京」向けのMPIライブラリに実装した.Trinaryx3アルゴリズムは,トーラス向けに最適化されており,「京」の特長のひとつである複数RDMAエンジンを活用することができる.実装を評価した結果,既存のトポロジを考慮していないアルゴリズムと比較して,5倍のバンド幅の向上を確認した.
著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J96-D, no.10, pp.2118-2129, 2013-10-01

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,高いスケーラビリティのインターコネクトの専用開発,並列度の爆発に抗する技術の導入,高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
宇野篤也 庄司文由 横川三津夫
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012, no.22, pp.1-6, 2012-09-26

スーパーコンピュータ 「京」 や地球シミュレータなどの大規模システムでは,計算ノードのファイル I/O 性能を確保するために 2 階層のファイルシステムを採用しており,ジョブ実行の一連の作業としてファイルシステム間でファイルを移動させるファイルステージング機構をジョブスケジューリングに組み込んでいる.本稿では,ファイルステージングがジョブスケジューリングに与える影響等についてソフトウェアジョブシミュレータを用いて評価したので報告する.
著者
宇野 篤也 岩本 光夫 八木 学 横川 三津夫
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-158, no.14, pp.1-5, 2017-03-01

近年,HPC システムの大規模化にともない,シミュレーション結果も膨大な量となっている.この膨大な計算結果を効率よく分析するための手段として,可視化等が用いられることが多く,可視化専用のハードウェアを搭載したシステムを利用することがよくある.この場合,シミュレーションを行ったシステムとのデータ連携が必要となる.これらのサーバが同一のサイトに設置されている場合は,ストレージ共有で対応できるが,異なるサイトに設置されているシステムを利用する場合には,ネットワーク経由でデータの転送を行うことになり,高速なデータ転送が求められる.今回,スーパーコンピュータ 「京」 と隣接する神戸大学統合研究拠点の計算科学教育センターに設置された可視化用計算サーバ 「π-VizStudio」 を直接ネットワークで接続し,データ転送性能評価を行ったので報告する.
著者
森下 浩二 横川 三津夫 宇野 篤也 石原 卓 金田 行雄
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014-ARC-213, no.17, pp.1-5, 2014-12-02

現在日本最速のスーパーコンピュータである 「京」 を用いて,一様等方性乱流の超大規模直接数値シミュレーション (DNS) を実現するために,地球シミュレータ向けに開発された,フーリエ・スペクトル法に基づく一様等方性乱流の DNS コードの 「京」 への移植,及び最適化を行った.移植の際には,従来の 1 次元分割によるデータ分散手法から,より効率的な All-to-all 通信が可能であると考えられる 2 次元分割による手法へと変更を行った.その結果,「京」 の 192×128 ノードを用いて最大格子点数 122883 の超大規模 DNS の実現に成功した.これはプロダクトランとしては世界最大の一様等方性乱流の DNS である.ピーク性能比として,格子点数 61443,81923,122883 の DNS でそれぞれ 3.84%,3.14%,2.24% の実効性能が得られた.また,コードの更なる高効率化のために,乱流 DNS 特有のアルゴリズムに対する最適化を試み,その性能評価を行った.
著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.96, no.10, pp.2118-2129, 2013-10

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,(1)汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,(2)高いスケーラビリティのインターコネクトの専用開発,(3)並列度の爆発に抗する技術の導入,(4)高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
谷村 勇輔 田中 良夫 横川 三津夫 関口 智嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.20, pp.115-120, 2006-02-27
参考文献数
11

実大三次元振動実験により生成される貴重,かつ膨大なデータを格納するためのデータリポジトリシステム「EDgrid Central」を設計した.EDgrid Central はバックエンドに大容量のストレージと振動実験データの格納用に考案されたデータモデルを実装し,フロントエンドではメタデータによる実験データの検索やデータファイルの一括ダウンロード機能をWeb インタフェースとして提供する.これは米国のNEES プロジェクトで開発されたNEEScentral ソフトウェアをもとに,振動実験のデータを扱うユーザの意見を踏まえて必要な機能の追加・拡張,EDgrid スタイルのデザインへの置き換えを行ったものである.EDgrid Central を運用することで,振動実験データを格納するための半恒久的なリポジトリを確保するとともに,地震工学の研究者がお互いの実験や解析結果を日常的に交換,共有利用する環境を提供することができる.A data repository system, that is called EDgrid Central, is designed for storing huge amount of experiment data by using a 3-D full-scale earthquake testing facility. The EDgrid Central prepares large storage capacity and implements a data modeling for the shake test in the backend. The frontend is a portal for users to retrieve the stored data by meta-data search and bulk download. This system uses the NEEScentral developed by the NEES project in the United States by enhancing search and download functionalities, according to the EDgrid users' requirements. The EDgrid Central allows facility sites to have a permanent repository of the shaking table experiment and it also enables civil engineering researchers to share their data and reports in their daily activities.
著者
今出 広明 平本 新哉 三浦 健一 住元 真司 黒川 原佳 横川 三津夫 渡邊 貞
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2012, pp.93-100, 2012-01-17

本論文では,RMATT(Rank Map Automatic Tuning Tool) における実行時間の高速化について述べる.RMATT は MPI アプリケーションにおけるランク配置を最適化することで通信処理時間を短縮することができるが,実行に長時間を要することが問題であった.この問題を解決するため,変更されたランクの通信処理のみを再計算する他,通信しないランク間のテーブル作成を省くことで計算量を大幅に削減する方法を開発した.評価の結果,4,096 ランクの Allgather bruck アルゴリズムの最適化に従来 16 時間かかっていた実行時間を 7.4 分に短縮できることを確認した.また,NAS Parallel Benchmark におけるクラス B,プロセス数 1,024 の CG に本 RMATT を適用し,京コンピュータ上において CG の実行時間を 7% 削減することを確認した.
著者
松本 幸 安達 知也 田中 稔 住元 真司 曽我 武史 南里 豪志 宇野 篤也 黒川 原佳 庄司 文由 横川 三津夫
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2011-ARC-197, no.6, pp.1-10, 2011-11-21

本報告では,8 万台以上のノードを直接網で結合した 「京」 における MPI 集団通信の高速化について述べる.従来の MPI 集団通信アルゴリズムは,間接網向けのアルゴリズムが主体であり,これを直接網に適用してもメッセージの衝突のため効率的な通信ができない.このため,高い通信性能を得るためには直接網を意識した集団通信アルゴリズムが必須となる.そこで我々は,トーラス向け Allreduce アルゴリズム Trinaryx3 Allreduce を設計し,「京」 向けの MPI ライブラリに実装した.Trinaryx3 Allreduce は,「京」 の特長である複数 RDMA エンジンを同時に活用することができる.実装を評価した結果,既存の間接網向けアルゴリズムと比較して,5 倍程度バンド幅が向上することを確認した.
著者
石川 裕彦 横川 三津夫 浅井 清
出版者
一般社団法人 日本原子力学会
雑誌
日本原子力学会誌 (ISSN:00047120)
巻号頁・発行日
vol.29, no.2, pp.158-163, 1987-02-28 (Released:2010-01-08)
参考文献数
14

This paper describes the reduction of computation time of a large sparse linear equations obtained by discretization of a three-dimensional Poisson's equation using the finite difference method. The equation is induced from wind field calculations, which are needed for evaluation of environmental consequences due to radioactive effluents.Various iterative methods, such aS ICCG, MICCG, ILUCR and MILUCR methods, are applied to solving linear equations and are compared with SOR method. The optimum value of the acceleration factor of SOR method can be obtained numerically according to atmospheric stability for each nuclear site, and the iterations are minimized by using this optimum value.The computation time for MICCG or MILUCR method is a half of that for SOR method. The ILUCR method is better than SOR method, because it does not use acceleration factor and the computation time is shorter. The use of vector computer drastically reduces the computation time, and all the iterative methods are applicable. A scalar computer, however, favors the use of MILUCR or MICCG methods because of a half of the computation time for SOR method.
著者
南 一生 井上 俊介 千葉 修一 横川 三津夫
出版者
一般社団法人情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014, no.30, pp.1-9, 2014-12-02

プログラムの実行性能限界を見積もるために,プロセッサのピーク性能,メモリバンド幅,Operational Intensity(Flop/Byte) をパラメータとしたルーフラインモデルが提案されている.ルーフラインモデルは,メモリネックのプログラムの場合に見積り性能と実測性能が良く一致するが,キャッシュアクセスが増えてくると,見積り性能と実測性能が乖離してくる.本報告では,キャッシュアクセスが増大するカーネルプログラムに対し,コーディングに基づく実行性能の見積もり方法を提案する.また,いくつかのカーネルループに対し,スーパーコンピュータ 「京」 上の実行性能の評価を行った結果,本方法が実効性能見積もりに適用できることを明らかにした.The Roofline models have been proposed in order to estimate the marginal performance of programs based on some features of computer systems such as peak performance, memory bandwidth, and operational intensity. The estimated performance by the model is in good agreement with the measured performance in the case that programs access memory devices directly. However, a difference between the estimated performance and the measured performance appears in the case that cache accesses of the program increase. In this paper, we extended the roofline model to a new one which can apply to a performance estimation of programs in which many cache accesses occur. It is shown that the new model can estimate the sustained performance of various kernel loops on the K computer by comparing with measured performance.
著者
森下 浩二 横川 三津夫 宇野 篤也 石原 卓 金田 行雄
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.17, pp.1-5, 2014-12-02

現在日本最速のスーパーコンピュータである 「京」 を用いて,一様等方性乱流の超大規模直接数値シミュレーション (DNS) を実現するために,地球シミュレータ向けに開発された,フーリエ・スペクトル法に基づく一様等方性乱流の DNS コードの 「京」 への移植,及び最適化を行った.移植の際には,従来の 1 次元分割によるデータ分散手法から,より効率的な All-to-all 通信が可能であると考えられる 2 次元分割による手法へと変更を行った.その結果,「京」 の 192×128 ノードを用いて最大格子点数 122883 の超大規模 DNS の実現に成功した.これはプロダクトランとしては世界最大の一様等方性乱流の DNS である.ピーク性能比として,格子点数 61443,81923,122883 の DNS でそれぞれ 3.84%,3.14%,2.24% の実効性能が得られた.また,コードの更なる高効率化のために,乱流 DNS 特有のアルゴリズムに対する最適化を試み,その性能評価を行った.
著者
南 一生 井上 俊介 千葉 修一 横川 三津夫
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.30, pp.1-9, 2014-12-02

プログラムの実行性能限界を見積もるために,プロセッサのピーク性能,メモリバンド幅,Operational Intensity(Flop/Byte) をパラメータとしたルーフラインモデルが提案されている.ルーフラインモデルは,メモリネックのプログラムの場合に見積り性能と実測性能が良く一致するが,キャッシュアクセスが増えてくると,見積り性能と実測性能が乖離してくる.本報告では,キャッシュアクセスが増大するカーネルプログラムに対し,コーディングに基づく実行性能の見積もり方法を提案する.また,いくつかのカーネルループに対し,スーパーコンピュータ 「京」 上の実行性能の評価を行った結果,本方法が実効性能見積もりに適用できることを明らかにした.The Roofline models have been proposed in order to estimate the marginal performance of programs based on some features of computer systems such as peak performance, memory bandwidth, and operational intensity. The estimated performance by the model is in good agreement with the measured performance in the case that programs access memory devices directly. However, a difference between the estimated performance and the measured performance appears in the case that cache accesses of the program increase. In this paper, we extended the roofline model to a new one which can apply to a performance estimation of programs in which many cache accesses occur. It is shown that the new model can estimate the sustained performance of various kernel loops on the K computer by comparing with measured performance.