著者
梅村 雅之 中本 泰史 朴 泰祐 高橋 大介 須佐 元 森 正夫 佐藤 三久
出版者
筑波大学
雑誌
特別推進研究
巻号頁・発行日
2004

宇宙第一世代天体の誕生は、宇宙全体の進化、銀河の誕生、重元素の起源を解き明かす上で根源的な問題である。本計画の目的は、宇宙第一世代天体形成過程について、超高精度のシミュレーションを行い、その起源を解き明かすことにある。そのために、天体形成シミュレーションの専門家と計算機工学の専門家が、緊密な協力体制の下に重力計算専用ボードBlade-GRAPEを開発し、これをPCクラスタに融合させた宇宙シミュレータFIRSTを開発した。FIRSTは、256の計算ノード、496CPUからなり、2つのファイルサーバをもつ。また、分散したローカルディスクから一つの共有ファイルシステムを構築するGfarmシステムが導入されており、総計22TBのファイルシステムをもつ。FIRSTの総演算性能は、36.1TFLOPSであり、内ホスト部分3.1TFLOPS、Blade-GRAPE部分33TFLOPSである。また、主記憶容量は総計1.6TBである。このような融合型並列計算機の開発は、世界でも例を見ないものである。FIRSTを用いてこれまでにない大規模なシミュレーションを実行した。その結果、次のような成果を得た。(1)宇宙第一世代天体形成のダークマターカスプに対する依存性の発見、(2)初代星に引き続いて起こる星形成への輻射性フィードバックの輻射流体計算とフィードバック条件の導出、(3)紫外線輻射場中の原初星団形成シミュレーションによる球状星団形成の新たな理論モデルの提唱、(4)3次元輻射輸送計算による原始銀河からの電離光子の脱出確率の導出、(5)銀河団合体時の非平衡電離過程効果の発見、(6)アンドロメダ銀河と衛星銀河の衝突による“アンドロメダの涙"のモデル提唱。中でも(1)は、過去の他グループの計算に比べて2桁以上高い質量分解能を実現することによってもたらされたものである。この計算によって、従来の第一世代天体に対する描像に見直しが必要であることが明らかとなった。
著者
梅田 宏明 塙 敏博 庄司 光男 朴 泰祐 重田 育照
出版者
日本コンピュータ化学会
雑誌
Journal of Computer Chemistry, Japan (ISSN:13471767)
巻号頁・発行日
vol.14, no.3, pp.69-70, 2015 (Released:2015-09-25)
参考文献数
6
被引用文献数
5

GPU acceleration of four-center (4C) inter-fragment Coulomb interaction term (IFC) for OpenFMO, a fragment molecular orbital calculation program, has been implemented and its performance was examined. FMO calculation has two time-consuming steps: Fock matrix construction and IFC calculation, and in our previous letter, it was reported that the former is successfully accelerated with our GPU-enable code. The 4C-IFC calculation is the core part of the latter and its code is similar to that of Fock matrix construction. In this letter, we briefly describe the GPU-accelerated 4C-IFC calculation routine, and report a performance benchmark for GPU-accelerated FMO calculation. The GPU-accelerated program shows 3.3× speedups from CPU only FMO-HF/6-31G (d) calculation for 642 atomic protein on 8 nodes of HA-PACS base cluster.
著者
廣川 祐太 朴 泰祐 佐藤 駿丞 矢花 一浩
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.9, no.4, pp.1-14, 2016-11-17

近年,Intel Xeon Phiなどメニーコアプロセッサを搭載したPCクラスタが運用されているが,同プロセッサの性能特性から実アプリケーションにおいて高い性能を得るのは非常に困難である.本研究では,電子動力学シミュレータARTEDでの支配的な計算である波数空間と軌道に関して並列化された3次元実空間格子の25点ステンシル計算を,メニーコアプロセッサに対し最適化することを目的とする.まず,元のターゲットシステムである京コンピュータ(SPARC64 VIIIfx)に対し最適化を行い,コンパイラによる自動ベクトル化を促進することで14.94GFLOPSから27.2GFLOPSに性能が向上した.この実装を用いて,メニーコアプロセッサのIntel Xeon Phi(Knights Corner)を対象に,自動ベクトル化とIntrinsicsを用いた手動ベクトル化による最適化を行った.元実装が30.06GFLOPSであるのに対し,手動ベクトル化実装で224.45GFLOPSと20.9%のピーク演算性能比を達成した.また,次世代プロセッサのKnights Landingへの実装などについても考察する.
著者
岡本 高幸 朴 泰祐 佐藤三久 建部修見
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.121-126, 2006-07-31

家庭やオフィスの遊休PCは潜在的に大きな計算能力を有しており,これらを接続して効率的に利用することができれば非常に大きな計算資源となる.しかし,NATやファイアウォールの中にあるこれらのPCを相互に接続するには,物理的なIPアドレスに依存しないノード識別子によるルーティング処理やUPnP,hole punchingなどのNAT越えの技術が必要である.これらをアプリケーションごとに実装していくことは煩雑であり,P2Pアプリケーションの開発における問題となっている.そこで本稿では,アプリケーションをネットワークの物理構成から独立させ,物理ネットワークに依存せず参加するすべてのノードを等しく接続可能とするオーバーレイネットワークを提案する.そして,その実現に必要なNAT越え技術の一つであるUDP hole punchingについてのテストシステムを作成し,市販の家庭用ルータを用いて性能評価を行った.UDP hole punchingと独自のライブラリを使うことによってTCPと比べて2 割程度のスループットの低下でNATを越えて直接通信が実現できることを確認した.An enormous number of PCs at home or office potentially implies a great amount of computation power when they are out of the work, and there is an opportunity to utilize their power for a large scale computation. However, these machines usually exist behind the NAT or firewall and it requires various techniques to access and connect them, such as logical naming independent from the original IP addresses, efficient routing, or NAT traversing with UPnP or UDP hole punching. It is troublesome to apply these techniques adequately to each application, and this is a hazard in the development of P2P application. In this paper, we propose an overlay network to connect all attending nodes in logically flat layer independently from their physical network in order to encourage the easy development of various P2P applications. In our system, we implement a generic communication library based on UDP hole punching which is one of the most common NAT traversal techniques, and evaluated the communication performance on commodity personal broadband router widely used at home. We developed an original communication layer only with UDP protocol which is basically compatible with TCP. By the direct communication through NAT box without intermediate relay server, we confirmed that our method provides a communication performance with only about 20% of performance degradation compared with TCP communication.
著者
朴 泰祐 中島 研吾
雑誌
情報処理
巻号頁・発行日
vol.60, no.12, pp.1193-1197, 2019-11-15

本記事では,スーパーコンピュータの中心となるプロセッサアーキテクチャとして,メニーコア型のものを取り上げ,その代表的システムであるOakforest-PACSを例に解説する.同アーキテクチャに基づくプロセッサとして最もよく用いられているのはIntel社性のXeon Phiプロセッサファミリーであるが,一般的なマルチコアプロセッサと異なり,細かい性能チューニングが必要である.Oakforest-PACSのシステム構成と代表的アプリケーション,およびJCAHPCにおける運用について解説する.
著者
宇川 斉志 佐藤 三久 朴 泰祐 児玉 祐悦 山口 佳樹 山本 淳二
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2015-HPC-148, no.24, pp.1-8, 2015-02-23

エクサスケールの計算機の実現にあたって文部科学省の委託研究により大量の演算器を 1 つのマスタープロセッサで制御する Extreme SIMD アーキテクチャが提案された.本稿では Extreme SIMD アーキテクチャ上で実行できるバイナリを生成するためのプログラミングモデルの一つとして Extreme SIMD 向け拡張 C について述べ,それを用いて Extreme SIMD アーキテクチャのシミュレータによる評価を行う.Extreme SIMD 向け拡張 C は PE で実行される文を SIMD 制御文で囲むだけで簡単に指定することが可能で,メモリ操作などはライブラリ関数で提供されるという特徴を持つ.2 次元のラプラス方程式の差分法による計算を実行したところローカルメモリに入りきる 4096×4096 格子の問題サイズではピーク性能に対して最大 74%と高い実効効率を示すが,入りきらない問題サイズでは実効効率が 1 割未満になるという急激な性能低下を起こすことを確認した.
著者
位守 弘充 中村 宏 朴 泰祐 中澤 喜三郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.34, no.12, pp.2612-2623, 1993-12-15
参考文献数
16
被引用文献数
16

大規模科学技術計算では、データ領域が非常に大きくデータの局所性が少ないため、キャッシュメモリが有効に働かない、そのためスカラプロセッサの実効性能はキャッシュミス時の主記億アクセスペナルティーにより低下する。本諭文では、主記憶のスループットを十分強化した上で、浮動小数点レジスタの構成としてスライドウィンドウ方式を採用し、既存のスカラアーキテクチャとの上位互換性を保ちながらレジスタ数を増やすことでこの問題を解決した新しいプロセッサを提案する。提案するスライドウィンドウ方式は、われわれが以前提案したレジスタウィンドウ方式と比較して、ウィンドウ構成をソフトウェアで制御できるという長所がある。本諭文ではスライドウィンドゥを用いた擬似ベクトルプロセッサのアーキテクチャと処理原理、ならびにベンチマークプログラムを用いた評価緒果を示す。主記億アクセスレーテンシーが20マシンサイクルの場合、擾案するプロセッサは通常のスカラプロセッサに対し約8借の性能向上が得られた。レジスタウィンドウ方式のプロセッサと比ぺても、レジスタ数が同じ場合、2倍の主記億アクセスレーテンシーを隠蔽でき、総レジスタ数が88のと妻、提案するプロセッサは60マシンサイクルの主記憶アクセスレーテンシーを隠蔽することができた。これらの評価結果より、提案するプロセッサは高速にベクトル計算を処理することができると結論できた。
著者
廣野 哲 中村 宏 朴 泰祐 中澤 喜三郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.37, no.10, pp.1850-1858, 1996-10-15
参考文献数
9
被引用文献数
1

大規模科学技術計算においては データ参照に時間的局所性が少ないためにキヤッシュが有効に働かない. このような計算においても高い実効性能を達成する擬似ベクトルプロセッサPVP-SWを我々は提案している. また データがランダムに参照され データ参照に空間的局所性も少ないリストベクトル処理においてもPVP-SWは有効であることが過去に報告されている. しかし 過去の報告では リストベクトルの内容に重複がないことが保証された場合のリストベクトル処理についてのみ論じている. 本論文では このような保証がなく 従来のべクトル型スーパーコンピュータではベクトル化できない一般のリストベクトル処理においてもPVP-SWが効率良く処理を行えることを示す. 計算機シミュレーションによる性能評価結果より PVP-SWが高い実効性能を達成することが確認できた.In large scientific/engineering applications, data caches do not work effectively because of little temporal locality. We have proposed "Pseudo Vector Processor based on Slide-Windowed Registers (PVP-SW)" for these applications. This processor realizes high performance even in list vector processing which has little spatial locality due to random data accesses. However, previous reports assumed that none of the list vector data is the same. In this paper, we focus on more general list vector computation without this assumption. Such list vector computation can not be vectorized in ordinary vector supercomputers. We show that PVP-SW is also effective even in such list Vector processing. Performance evaluation reveals that PVP-SW achieves high performance even in general list vector processing.
著者
桑原 悠太 塙 敏博 朴 泰祐
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-151, no.12, pp.1-8, 2015-09-23

近年,GPU クラスタでは,GPU プログラミング環境として CUDA (Compute Unified Device Architecture) が標準的に用いられている.GPU クラスタ上での並列アプリケーションでは,CUDA 環境おいて,ノードを跨ぐ GPU 間通信が発生し,MPI などによりホスト CPU が処理するのが一般的である.そのため,通信が発生する毎に GPU 上の CUDA カーネルからホストに一旦制御を戻す必要があり,カーネル関数の起動や同期に伴うオーバーヘッドが生じる.特に並列処理における通信粒度が細かいほど,カーネル関数の起動回数も増え,オーバーヘッドも増加する.それだけでなく,プログラミングのコストが高く,CPU 向け MPI プログラムを GPU 並列化する場合にソースコードが煩雑になりやすいといった生産性の低下も問題となっている.これらの問題を解決するために,本研究では GPU カーネル内から MPI 通信の起動を可能とする並列通信システム “GMPI” を提案・開発する.これにより,並列 GPU プログラミングを簡単化し,GPU カーネルの起動や同期に伴うオーバーヘッド削減による並列処理効率の向上を目指す.本稿では,GMPI の実装と,Ping-Pong 通信および姫野ベンチマークの性能評価を行う.現状では性能最適化やチューニングが十分でなく,Ping-Pong 通信では従来方式とほぼ同等の性能であるが,姫野ベンチマークでは従来手法の約半分の性能が得られている.
著者
田渕 晶大 木村 耕行 鳥居 淳 松古 栄夫 石川 正 朴 泰祐 佐藤 三久
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-154, no.3, pp.1-7, 2016-04-18

電力当たりの性能が重要視される中,低消費電力のアクセラレータとして PEZY-SC が注目されている.PEZY-SC のプログラミングには OpenCL をベースとした PZCL が提供されているが,その記述は煩雑で生産性が低い.そこでアクセラレータ向けの指示文ベースプログラミングモデルである OpenACC のコンパイラを PEZY-SC 向けに設計・試作する.Suiren Blue (青睡蓮) を用いた評価では,OpenACC コードは PZC Lコードと比較して N-Body では 98%以上,NPB CG では最大 88%の性能が得られた.また OpenACC は指示文を用いた簡潔な記述により PZCL の半分以下のコード行数で実装できたことから,高い生産性と十分な性能を達成できた.
著者
小田嶋 哲哉 チャントゥァンミン 李 珍泌 朴 泰祐 佐藤 三久
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.12, pp.1-8, 2011-03-08

高い演算性能及びメモリバンド幅をもつGPUを搭載したGPUクラスタが高性能計算プラットホームとして広く利用されている.GPUクラスタではプログラミングが非常に複雑になることや,計算負荷がGPUまたはCPUのどちらかに偏り,計算リソース全体を有効利用しにくいという問題がある.そこで,分散メモリシステム向けの並列言語であるXcalableMPをGPU向けに拡張して,GPUクラスタ等のヘテロジニアス環境に適応させることを検討する.本稿ではその予備評価として,XcalableMPによるGPU/CPU協調計算を行い,典型的なHPCアプリケーションであるN体問題と行列積計算を対象に,GPUとCPUへの計算負荷分散による最適化を行い,これらによる協調計算の可能性を検討した.その結果,2ノード・2GPUのシステム上でGPUに割り当てるデータを50%から60%にしたところ,最大で約1.7倍の高速化を得ることができた.As shown in TOP500 List at November 2010, GPU clusters have been recognized as highly cost-effective HPC resources. However, the programming on GPU cluster requires much harder effort than ordinary PC clusters because of complicated heterogeneous coding with combination of CUDA/OpenCL, OpenMP and MPI, for example. In order to provide a solution for this, we will consider an extension of parallel programming language XcalableMP for GPU cluster computing. In this paper, we propose an textended notation of XcalableMP for data and process distribution in a GPU cluster. We also preliminarily evaluate the performance enhancement by a cooperated computing with GPU and multi-core CPU on typical HPC applications, N-body calculation and matrix multiplication. As a result, we confirmed the maximum of 1.7 times higher performance when we distribute the 50 to 60% of computation to GPU, compared with the case with 100% of computation only by GPU.
著者
佐藤 三久 朴 泰祐 建部 修見 天笠 俊之 櫻井 鉄也 山本 有作 高橋 大介 北川 博之
出版者
筑波大学
雑誌
基盤研究(A)
巻号頁・発行日
2005

P2Pグリッドとは、従来、各研究組織にある計算資源を共有することが目的であったグリッド技術を、P2P技術を活用しオフィスおよび個人のPCなどの潜在的な計算資源をグリッドの計算資源として活用するものである。本研究の目的は、期待される大量の計算資源による大容量コンピューティングのためのP2Pグリッド基盤を構築・利用する技術を確立し、その有効性を検証することである。1. P2P環境の潜在的な計算資源をグリッドの計算資源として活用するために、多くのPCで利用されているWindowsにおいてLinuxバイナリを実行するためのシステムBEEとUDPによるファイアウォール越えを用いたP2Pオーバーレイネットワークを開発した。さらに、P2P環境における認証機構として、匿名相互証明書とP2P通信を用いる認証方式AUBReX、他のジョブスケジューラと相互に協調し資源を共有する機構について開発した。2. 大容量コンピューティングのプログラミングモデルとして、RPCモデルから広域ネットワーク上の大容量データを効率的に扱うためのデータレイヤOmniStorageを開発し、それを拡張し、多数のノードに分散配置された大量データに対して、グローバルなデータ並列操作を行うプログラミング環境を提案した。また、大規模スケーラブルP2PにおけるXMLデータ管理について、MLデータの内容による検索に着目し,P2Pネットワーク上でXMLデータのキーワード検索を可能にする手法を考案した。3. P2Pグリッド向きのアルゴリズムとして、複素積分を用いた非線形固有値計算アルゴリズムや前処理手法を開発した。また、P2Pグリッドの有望な高性能な計算資源として、ヘテロジーニアスマルチコアであるCellプロセッサを取り上げ、この資源を利用するための数値計算ソフトウエアを実装した。
著者
石川 裕 高橋 大介 朴 泰祐 佐藤 三久
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. HPC,[ハイパフォーマンスコンピューティング] (ISSN:09196072)
巻号頁・発行日
vol.92, pp.1-6, 2002-10-25
被引用文献数
1

4台の4 way Itanium(800MHz)プロセッサから構成されるクラスタ上にSCoreクラスタシステムソフトウエアを移植し、ItaniumによるSCoreクラスタの性能を測定する。Pentium-III(933MHz)プロセッサによるクラスタと比較した結果、姫野ベンチマークでは、単体性能でItaniumプロセッサはPentium IIIプロセッサの3倍の性能がある。NAS並列ベンチマークのCGの結果では、16プロセッサ構成までの比較で、ItaniumプロセッサはPentium IIIプロセッサの2.7倍〜1.3倍高速である。
著者
中村 宏 近藤 正章 大河原 英喜 朴 泰祐
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌. ハイパフォーマンスコンピューティングシステム (ISSN:03875806)
巻号頁・発行日
vol.41, no.1, pp.15-27, 2000-08-15
被引用文献数
21

近年のプロセッサは, クロック周波数の向上, 命令レベル並列性の活用などにより高性能化が図られているが, 一方で主記憶の性能はプロセッサほど改善されてはいない.特に, ハイパフォーマンスコンピューティングにおいては, このプロセッサと主記憶との性能格差の問題が深刻である.そこで, この問題の解決を目指した新しいプロセッサアーキテクチャSCIMAを提案する.提案するアーキテクチャは, プロセッサチップ上に主記憶の一部を実装するものである.本論文では, そのアーキテクチャの基本構成, およびシミュレータを用いた性能評価を示す.評価結果より, SCIMAは従来のキャッシュ型のアーキテクチャに比べ非常に高い性能を達成することが分かった.