著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J96-D, no.10, pp.2118-2129, 2013-10-01

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,高いスケーラビリティのインターコネクトの専用開発,並列度の爆発に抗する技術の導入,高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.96, no.10, pp.2118-2129, 2013-10

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,(1)汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,(2)高いスケーラビリティのインターコネクトの専用開発,(3)並列度の爆発に抗する技術の導入,(4)高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
津金 佳祐 中尾 昌広 李 珍泌 村井 均 佐藤 三久
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.29, pp.1-8, 2016-08-01

近年,高性能計算分野においてチップ内に多くのコアを搭載するメニーコアプロセッサを用いた大規模並列システムが登場している.そのようなシステムにおける並列化手法の一つとしてタスク並列が注目されており,本稿では,分散メモリ環境上での動的なタスク並列処理をより簡易な記述で実装可能とすべく PGAS 言語 XcalableMP(XMP) の拡張を行う.記述として tasklet 指示文を提案し,ノード内/外におけるタスク間の依存関係の記述による細粒度な同期や,通信と計算のオーバラップによる性能向上を目指す.タスク生成や制御は Argonne National Laboratory(ANL) により開発が進められている軽量スレッドライブラリである Argobots を用いる.現在は,実装対象である Omni XMP Compiler のランタイムのみの実装であるため,コード変換は手動で行う.提案手法の予備評価としてブロックコレスキー分解のコードを対象とし,性能・生産性の評価を行った.比較対象は,MPI+OpenMP による実装と INRIA によって開発が進められている StarPU による実装である.StarPU 実装との比較では一部優位な点が見られたが,MPI+OpenMP 実装との比較では最大で約 15%の性能低下が見られた.生産性の比較では,指示文による記述を採用したことによりベースコードから少ない変更で実装可能なことから,tasklet 指示文による記述の生産性の高さを示した.
著者
村井 均
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.45, no.2, pp.114-115, 2004-02-15
被引用文献数
1

地球温暖化やエルニーニョといった地球規模の環境変動への関心は近年ますます高まり,それら現象の解明・予測が急務とされている.その鍵を握るのが,本特集で取り上げる「地球シミュレータ」である.観測困難・実験困難な現象を解明するにはコンピュータを用いた数値シミュレーションが有用かつ不可欠であるが,地球規模の現象のシミュレーションを行うのに必要な性能と,1996年当時のスーパーコンピュータの性能の間には巨大なギャップが存在した.このギャップを埋めるべく,1,000倍の性能を持つ世界最高速のスーパーコンピュータ-地球シミュレータ(ES: Earth Simulator)が開発されたのである.5年の歳月を掛け完成したESは,当時世界最高速であった米国のスーパーコンピュータASCI Whiteの5倍近い性能を達成した.この事実は米国に非常に大きな衝撃を与え,米Tennessee大のJack Dongarra教授は,かつて世界初の人工衛星打ち上げをソ連のスプートニクに先んじられたことになぞらえて,ESの出現を「コンピュートニク」と呼んだ.2002年3月の運用開始以後,多くの研究者がESを利用し,さまざまな有用な成果が続々と上がってきている.以下は,ESやESを利用した業績に対して国内外から贈られた賞である.・TOP500 ・Gordon Bell賞 ・米タイム誌「2002年最高の発明品」 ・照明普及賞 ・日本産業技術大賞内閣総理大臣賞 ・日経BP技術賞 ・21世紀の偉業賞 本特集では,ESという最も優れた「道具」の解説を行うとともに,その道具を使うことによって可能となった研究を紹介することをねらいとする.以下では,各記事に先立ち,開発の経緯とシステムの概要について簡単に述べておく.
著者
松浦 健一郎 村井 均 末広 謙二 妹尾 義樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.41, no.5, pp.1420-1429, 2000-05-15
被引用文献数
3

データ分割は分散メモリ型並列計算機向けにプログラムを並列化する際の重要課題である.本稿では,Fortranプログラムにおいて自動的にデータ分割を行う手法を提案する.本手法の利用によりユーザは容易にFortranプログラムを並列化できる.本手法の特徴は,配列アクセス情報を基にループを効率的に並列化するデータ分割の候補を作成し,コントロールフローグラフを基に通信オーバヘッドを抑制するデータ分割を選択することによって,プログラム全体として良好な並列実行性能を達成するためのデータ分割を高速に決定することである.本手法は短時間で複数手続き間にわたるデータ分割を行えるので,高速性を活かした対話的なチューニング作業が可能である.今回本手法を実装し,Fortranプログラムを並列化して,実行時間を計測した.その結果,自動データ分割に要する時間が短いにもかかわらず,同等のMPIプログラムに近い実行速度と台数効果が得られた.Determining optimal data layout is very important for parallelizing programs on distributed-memory parallel computers.This paper describes a new algorithm of automatic data layout of Fortran programs.The algorithm enables users to parallelize Fortran programs without difficulty.It generates candidates of data layout for efficient parallelization of loops from access patterns, selects data layout to reduce communication overheads, and determines data layout all over the program to achieve good parallel execution performance.It can quickly determine data layout over multiple subroutines, thus it enables interactive tuning cooperating with users.It has been implemented, and evaluated by parallelizing several Fortran benchmark programs.Execution time and scalability of the benchmarks has been close to those of MPI alternatives.