著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J96-D, no.10, pp.2118-2129, 2013-10-01

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,高いスケーラビリティのインターコネクトの専用開発,並列度の爆発に抗する技術の導入,高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
清水 俊幸 安島 雄一郎 吉田 利雄 安里 彰 志田 直之 三浦 健一 住元 真司 長屋 忠男 三吉 郁夫 青木 正樹 原口 正寿 山中 栄次 宮崎 博行 草野 義博 新庄 直樹 追永 勇次 宇野 篤也 黒川 原佳 塚本 俊之 村井 均 庄司 文由 井上 俊介 黒田 明義 寺井 優晃 長谷川 幸弘 南 一生 横川 三津夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.96, no.10, pp.2118-2129, 2013-10

スーパーコンピュータ「京」の構成と評価について述べる.「京」はスパコンの広範な分野での利活用を目指した10PFLOPS級のスパコンである.我々は,デザインコンセプトとして,(1)汎用的なCPUアーキテクチャの採用と高いCPU単体性能の実現,(2)高いスケーラビリティのインターコネクトの専用開発,(3)並列度の爆発に抗する技術の導入,(4)高い信頼性,柔軟な運用性,省電力性の実現を掲げ,2011年にそのシステムを完成させた.HPC向けCPU,SPARC64 VIIIfxと,スケーラビリティの高いTofuインターコネクトを専用に開発し,並列度の爆発に抗する技術としてVISIMPACTを実装した.冷却やジョブマネージャ等により,高い信頼性,柔軟な運用性,省電力性を実現した.「京」は2011年6月と11月にTOP500で世界一となった.また,複数のアプリケーションで高い実行効率と性能を確認し,スパコンとしての高い実用性を示した.
著者
南 一生 井上 俊介 千葉 修一 横川 三津夫
出版者
一般社団法人情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014, no.30, pp.1-9, 2014-12-02

プログラムの実行性能限界を見積もるために,プロセッサのピーク性能,メモリバンド幅,Operational Intensity(Flop/Byte) をパラメータとしたルーフラインモデルが提案されている.ルーフラインモデルは,メモリネックのプログラムの場合に見積り性能と実測性能が良く一致するが,キャッシュアクセスが増えてくると,見積り性能と実測性能が乖離してくる.本報告では,キャッシュアクセスが増大するカーネルプログラムに対し,コーディングに基づく実行性能の見積もり方法を提案する.また,いくつかのカーネルループに対し,スーパーコンピュータ 「京」 上の実行性能の評価を行った結果,本方法が実効性能見積もりに適用できることを明らかにした.The Roofline models have been proposed in order to estimate the marginal performance of programs based on some features of computer systems such as peak performance, memory bandwidth, and operational intensity. The estimated performance by the model is in good agreement with the measured performance in the case that programs access memory devices directly. However, a difference between the estimated performance and the measured performance appears in the case that cache accesses of the program increase. In this paper, we extended the roofline model to a new one which can apply to a performance estimation of programs in which many cache accesses occur. It is shown that the new model can estimate the sustained performance of various kernel loops on the K computer by comparing with measured performance.
著者
南 一生 井上 俊介 千葉 修一 横川 三津夫
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.30, pp.1-9, 2014-12-02

プログラムの実行性能限界を見積もるために,プロセッサのピーク性能,メモリバンド幅,Operational Intensity(Flop/Byte) をパラメータとしたルーフラインモデルが提案されている.ルーフラインモデルは,メモリネックのプログラムの場合に見積り性能と実測性能が良く一致するが,キャッシュアクセスが増えてくると,見積り性能と実測性能が乖離してくる.本報告では,キャッシュアクセスが増大するカーネルプログラムに対し,コーディングに基づく実行性能の見積もり方法を提案する.また,いくつかのカーネルループに対し,スーパーコンピュータ 「京」 上の実行性能の評価を行った結果,本方法が実効性能見積もりに適用できることを明らかにした.The Roofline models have been proposed in order to estimate the marginal performance of programs based on some features of computer systems such as peak performance, memory bandwidth, and operational intensity. The estimated performance by the model is in good agreement with the measured performance in the case that programs access memory devices directly. However, a difference between the estimated performance and the measured performance appears in the case that cache accesses of the program increase. In this paper, we extended the roofline model to a new one which can apply to a performance estimation of programs in which many cache accesses occur. It is shown that the new model can estimate the sustained performance of various kernel loops on the K computer by comparing with measured performance.
著者
塩見 春彦 井上 俊介 塩見 美喜子
出版者
徳島大学
雑誌
特定領域研究(A)
巻号頁・発行日
2000

我々はトリプレットリピート病の代表例である脆弱X症候群の分子機序の解析を行っている。脆弱X症候群は最も高頻度に精神遅滞を伴う遺伝性の病気である。大部分の脆弱X症候群患者では、X染色体上に存在する遺伝子FMR1の5'非翻訳部位にある(CGG)nリピートが伸長し、その結果FMR1遺伝子産物の発現が転写レベルで抑制される。つまり、この病気はFMR1の機能欠損によるものである。FMR1の発現は健常人では脳神経系で非常に高く、一方、FMR1の発現のない脆弱X症候群患者は脳神経系の形態異常、特にシナプス形成の場であるスパインの形態異常を示す。FMR1蛋白質はRNA結合蛋白質で、しかもリボソームと相互作用していることからある種のmRNAの翻訳を直接叉は間接的に調節していると考えられているが、標的mRNAは今だ同定されていない。したがって、FMR1蛋白質の標的mRNAの同定はFMR1研究の最重要課題となっている。FMR1の標的mRNAを同定するために、我々はFMR1遺伝子の発現の変化に伴いその動態を変化させる蛋白質の同定をプロテオミクス解析法を用いて進めている。この研究を推進していくために、脆弱X症候群患者から樹立した各種細胞株と患者の正常な兄弟から同様に樹立した培養細胞株を用いている。この研究過程において、我々は、FMR1蛋白質はリボソームと相互作用していることから、患者由来と正常細胞におけるリボソーム分画の蛋白質レベルでの比較を行い、顕著な違いがあることを見い出した。この結果はFMR1蛋白質の有無がリボソームに構造的または質的な変化を与えることを示唆している。これは、ひいてはこのリボソームの構造的または質的な違いが翻訳するmRNA種のセレクターとして働いている可能性を示唆する。正常細胞においても、刺激に応じたFMR1蛋白質の修飾がリボソームとの相互作用を変化させ、その結果、リボソームの構造的または質的な変化を誘導することが考えられる。現在、両者で発現量に違いの見られる蛋白質の二次元電気泳動法による分離と質量分析による同定を進めている。さらに網羅的にFMR1蛋白質の有無により動態変化の見られる蛋白質の探索を進め、FMR1蛋白質の『標的遺伝子』を同定し、それらの発現調節機構の解析を通して脆弱X症候群の分子機序を明らかにしていきたい。
著者
井上 俊介 堤 重信 前田 拓人 南 一生
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.6, no.3, pp.22-30, 2013-09-25

理化学研究所では,スーパーコンピュータ「京」の高性能化を目的とし,6本の重点アプリケーションを選定し,高性能化,高並列化を進めてきた.うち地球科学の分野から選択された地震動シミュレーションコードであるSeism3Dについては,比較的高いByte/Flop値を要求する演算と,隣接プロセス間のみの通信という特徴があげられる.よって,Seism3Dの高性能化,高並列化のポイントとして,メモリバンド幅を最大限に生かすこと,キャッシュの効率的な利用をすること,6次元メッシュ上での最適な隣接通信を実現すること,に絞られる.我々はコードの持つ要求Byte/Flopから求まるピーク比性能の推定を実施し,詳細プロファイラ機能を活用することにより問題点を把握し,実測,チューニングを実施し,CPU単体性能向上策の検証と通信部の検証を進めた結果,82,944並列で理論ピーク比17.9%(1.9PFLOPS)に達したため,本稿で報告する.In order to optimize performance of the K computer, we selected six applications from various scientific fields. We optimized CPU performance and massively parallelization to them. Seism3D which was selected from earth science field is seismic wave simulation code. It has calculation parts which demands high Byte/Flop and communication parts between neighborhood processes. So optimization points are using enough memory bandwidth, using cache effectively and realization of optimal neighborhood communications on six-dimensional mesh/torus network. We estimated theoretical performance from required Byte/Flop of code and utilized advanced profiler to have a clear grasp of bottle neck. As a result, we achieved 17.9% per peak performance by using 82,944 cpus.