著者
津金 佳祐 中尾 昌広 李 珍泌 村井 均 佐藤 三久
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.29, pp.1-8, 2016-08-01

近年,高性能計算分野においてチップ内に多くのコアを搭載するメニーコアプロセッサを用いた大規模並列システムが登場している.そのようなシステムにおける並列化手法の一つとしてタスク並列が注目されており,本稿では,分散メモリ環境上での動的なタスク並列処理をより簡易な記述で実装可能とすべく PGAS 言語 XcalableMP(XMP) の拡張を行う.記述として tasklet 指示文を提案し,ノード内/外におけるタスク間の依存関係の記述による細粒度な同期や,通信と計算のオーバラップによる性能向上を目指す.タスク生成や制御は Argonne National Laboratory(ANL) により開発が進められている軽量スレッドライブラリである Argobots を用いる.現在は,実装対象である Omni XMP Compiler のランタイムのみの実装であるため,コード変換は手動で行う.提案手法の予備評価としてブロックコレスキー分解のコードを対象とし,性能・生産性の評価を行った.比較対象は,MPI+OpenMP による実装と INRIA によって開発が進められている StarPU による実装である.StarPU 実装との比較では一部優位な点が見られたが,MPI+OpenMP 実装との比較では最大で約 15%の性能低下が見られた.生産性の比較では,指示文による記述を採用したことによりベースコードから少ない変更で実装可能なことから,tasklet 指示文による記述の生産性の高さを示した.
著者
李 珍泌
巻号頁・発行日
2012

Thesis (Ph. D. in Engineering)--University of Tsukuba, (A), no. 6065. 2012.3.23
著者
堀 敦史 李 珍泌 佐藤 三久
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.12, pp.1-8, 2010-07-27

片方向通信は,ハードウェアによる RDMA (Remote Direct Memory Access) と相性が良く,高い通信性能を実現できる方式として注目されている.本稿では,片方向通信をソフトウェアで実装する際のポイントを挙げ,既存の片方向通信ライブラリである ARMCI と GASNet について実装方式を調査した.その結果,RDMA を用いずにメッセージ通信を下位レベルの通信レイヤーとして片方向通信が実現できること,RDMA を用いた場合の実装に比べ実装が容易であること,さらに RDMA 方式に劣らない性能を発揮する可能性があることを示す.また実際にこの方式による片方向通信ライブラリ Telemem を開発し,RDMA を用いた片方向通信ライブラリである ARMCI と性能をベンチマークプログラムを通じて比較し,Telemem の性能が ARMCI を上回る場合があることを示す.One-sided communication is thought to have an affinity with Remote Direct Memory Access (RDMA) done by a network interface hardware, and is attracting attentions as a way of implementing scalable high-performance communication system. In this paper, some points to a implement one-sided communication system will be listed and then it will be pointed out that a one-sided communication system without using RDMA but having low-level message communication layer can be implemented easily, avoiding some of the implemenation issues. The proposed one-sided communication system is implemented and named "Telemem," and evaluated with ARMCI one-sided communication system using RDMA. Through the benchmark evaluations, it will be shown that the application performance with Telemem may overcome the performance with ARMCI.
著者
小田嶋 哲哉 チャントゥァンミン 李 珍泌 朴 泰祐 佐藤 三久
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.12, pp.1-8, 2011-03-08

高い演算性能及びメモリバンド幅をもつGPUを搭載したGPUクラスタが高性能計算プラットホームとして広く利用されている.GPUクラスタではプログラミングが非常に複雑になることや,計算負荷がGPUまたはCPUのどちらかに偏り,計算リソース全体を有効利用しにくいという問題がある.そこで,分散メモリシステム向けの並列言語であるXcalableMPをGPU向けに拡張して,GPUクラスタ等のヘテロジニアス環境に適応させることを検討する.本稿ではその予備評価として,XcalableMPによるGPU/CPU協調計算を行い,典型的なHPCアプリケーションであるN体問題と行列積計算を対象に,GPUとCPUへの計算負荷分散による最適化を行い,これらによる協調計算の可能性を検討した.その結果,2ノード・2GPUのシステム上でGPUに割り当てるデータを50%から60%にしたところ,最大で約1.7倍の高速化を得ることができた.As shown in TOP500 List at November 2010, GPU clusters have been recognized as highly cost-effective HPC resources. However, the programming on GPU cluster requires much harder effort than ordinary PC clusters because of complicated heterogeneous coding with combination of CUDA/OpenCL, OpenMP and MPI, for example. In order to provide a solution for this, we will consider an extension of parallel programming language XcalableMP for GPU cluster computing. In this paper, we propose an textended notation of XcalableMP for data and process distribution in a GPU cluster. We also preliminarily evaluate the performance enhancement by a cooperated computing with GPU and multi-core CPU on typical HPC applications, N-body calculation and matrix multiplication. As a result, we confirmed the maximum of 1.7 times higher performance when we distribute the 50 to 60% of computation to GPU, compared with the case with 100% of computation only by GPU.