著者
石村 脩 吉本 芳英
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.14, pp.1-6, 2016-08-01

今日のHigh Performance Computing (HPC) では,処理の高速化のため,General Purpose computing on GPU (GPGPU) が頻繁に用いられている.しかし,一般的にこれらで用いられている GPU は CPU に汎用バスを介して接続されているため,CPU と GPU の間のデータ転送や処理の切り替えが遅く,粒度の細かい並列処理には向かない.一方で近年開発が進められている Heterogeneous System Architecture (HSA) では,汎用バスを介したデータ転送ではなく CPU と GPU で仮想空間を含めて統合されたメモリによるデータ共有 (Heterogeneous Uniform Memory Access) やカーネルモードへのコンテキストスイッチをせずに GPU にジョブを渡すことを可能とする機構 (Heterogeneous Queuing) が用意され,この問題への対応がなされていると主張されている.しかし,HSA が HPC において,実際にどの程度の効果を持つものであるか検証した先行研究は存在しない.そこで本研究では,HSA を採用した APU (Godavari) の性能評価を,データのアクセス遅延・バンド幅,および GPU のジョブの起動遅延に注目して行った.
著者
塙 敏博 中島 研吾 大島 聡史 伊田 明弘 星野 哲也 田浦 健次朗
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-156, no.10, pp.1-10, 2016-09-08

東京大学情報基盤センターでは,データ解析・シミュレーション融合スーパーコンピュータシステム Reedbush を導入し,2017 年 3 月より全系稼働開始予定である.Reedbush システムは,Intel Xeon E5 (Broadwell-EP) プロセッサに加えて NVIDIA Tesla P100 (Pascal) GPU を一部計算ノードに搭載する他,高速ファイルキャッシュシステムや,InfiniBand EDR などを始めとして導入時点で最新の技術を集めたシステムである.本稿では 2016 年 7 月から稼働を開始した汎用 CPU のみからなる Reedbush-U サブシステムの性能について報告する.
著者
中島 研吾 坂本 龍一 星野 哲也 有間 英志 塙 敏博 近藤 正章
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2020-HPC-174, no.5, pp.1-9, 2020-05-06

近年,科学技術計算において,低精度演算を積極的に活用することにより,計算時間を短縮する試みが活発に行われている.また,低精度演算による計算の精度を保証するための実用的手法についても研究が進められている.本研究では,アプリケーションの実装方法,問題規模と低精度演算による性能改善の関係に注目し,様々なハードウェア環境下での検討を実施した.
著者
竹田 大将 近藤 鯛貴 佐藤 裕幸 杉野 栄二
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-172, no.3, pp.1-7, 2019-12-11

我々は低コスト・省電力・省スペース化を目指し Raspberry Pi 上の GPGPU により,高負荷計算実現が可能か研究を行っている.今回はその Raspberry Pi GPGPU の 1 応用として,超解像処理システムを構築することを検討した.超解像技術は様々な手法が提案されているが,中でも Total Variation (TV) 正則化分離を用いた手法は最も有望なもののひとつと考えられる.TV 正則化分離は,入力画像を低周波成分とエッジ成分から構成される骨格成分,高周波成分とノイズから構成されるテクスチャ成分に分離する処理である.本稿では安価でありながら理論性能 24GFLOPS の GPU (VideoCore IV) が搭載されている特徴を持つ Raspberry Pi にて超解像処理の主要計算部のひとつである TV 正則化分離の GPGPU 化について評価を行った.その結果,CPU のみで演算を行う実装に比べて約 12 倍の高速化に成功し,汎用的な PC と比較しても Raspberry Pi GPU の価格性能比は圧倒的に高いことが確認できた.
著者
小川 宏高 松岡 聡 佐藤 仁 高野 了成 滝澤 真一朗 谷村 勇輔 三浦 信一 関口 智嗣
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-160, no.28, pp.1-7, 2017-07-19

国立研究開発法人産業技術総合研究所 (以降,産総研) では,平成 28 年度二次補正 「人工知能に関するグローバル研究拠点整備事業」 の一環として,平成 29 年度末に,東京大学柏 II キャンパスに,「AI 橋渡しクラウド (AI Bridging Cloud Infrastructure)」 (以降,ABCI という) の導入を計画している.ABCI は,我が国の人工知能技術開発のためのオープンなリーディングインフラストラクチャの実現を目指し,アルゴリズム (Algorithm),ビッグデータ (Big Data),計算能力 (Computing Power) の協調による,高度な人工知能処理を可能にする大規模かつ省電力なクラウド基盤である.本稿では,ABCI のサーバシステムにフォーカスしつつ,ABCI の概要と,システム設計上の論点と我々が採った方策について紹介する.
著者
近藤 鯛貴 竹田 大将 佐藤 裕幸
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-172, no.15, pp.1-6, 2019-12-11

Intel HD Graphics (IHD) とは Intel 社の開発する CPU 統合 GPU である.高いグラフィック性能を必要としない安価なコンピュータ向けに作られていることから低コストかつ低消費電力である.しかし,近年ではその性能もあがり理論性能で約 1TFlops の製品も登場し,計算資源として非常に有用である.また,2018 年に Intel が公式に IHD 用 GPGPU 言語である C for Metal (CM) を公開したことにより IHD の計算資源を GPGPU 用途で活用できるようになった.そこで本研究では CM の言語仕様を調査し,いくつかの GPGPU プログラムを実装した.Flops による理論性能と実測性能の評価を行ったところ,サンプルの行列積プログラムにて 81.60 %の性能率を確認し,同 SoC 内の CPU と計算時間で比較したところ約 57 倍高速に動作し,IHD および CM の GPGPU 用途における有用性を示した.
著者
大八木 哲哉 浅田 風太 三輪 忍 八巻 隼人 本多 弘樹
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-172, no.24, pp.1-8, 2019-12-11

最先端のスーパーコンピュータは膨大な電力を消費しており,優れた電力管理手法が必要とされている.スーパーコンピュータの CPU やメモリには製造ばらつきに起因する消費電力のばらつきが存在することが報告されており,電力管理手法の開発においては電力ばらつきの影響を考慮した方がよいと考えられる.一方,演算アクセラレータとして多くのスーパーコンピュータに搭載されている GPU については,電力ばらつきに関する報告がほとんどない.我々は,これまでに,Reedbush-H に搭載された計 240 基の GPU には最大 16% の電力ばらつきが存在することを確認し,ばらつきの影響を考慮した電力モデルを高速に生成する手法を提案している.今回,さらに多くの GPU の電力を計測するために評価環境として T SUBAME3.0 を用い,計 256 基の GPU を対象に電力ばらつきの確認と上記手法の有効性の確認を行った.本稿ではその結果を報告する.
著者
塙 敏博 伊田 明弘 大島 聡史 河合 直聡
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.40, pp.1-9, 2016-08-01

近年,FPGA (Field Programmable Gate Array) に対して新たな高性能計算向けのハードウェアとして注目が集まっている.FPGA は対象とする処理に合わせた最適な回路構成を用いることで高い性能や高い電力あたり性能を得られる可能性がある.さらに OpenCL を用いてプログラムコードの形で記述するだけで,FPGA 上のハードウェアとして容易に実現が可能な環境が整ってきた.本研究では,階層型行列における行列ベクトル積演算を対象に,FPGA 上に実装を行う.階層型行列は,小さな密行列と低ランク近似行列から構成される.階層型行列ベクトル積を行うには,これら構成行列に依存して入り組んだ処理が必要となる.このような問題に対して OpenCL を用いて FPGA 向けの実装を行い,コードの最適化方法と性能について比較する.
著者
星野 哲也 松岡 聡
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-153, no.4, pp.1-10, 2016-02-23

航空機の開発などに用いられる圧縮性流体解析アプリケーションには多大な演算パワーが必要とされ,近年一般的になっている演算アクセラレータを用いたスーパーコンピュータの利用が推進されている.しかし一般に,既存のアプリケーションのアクセラレータ向けの移植・最適化には多大なコストが伴うことが知られている.本稿では,実際に用いられている圧縮性流体アプリケーション UPACS へ OpenACC を適用・最適化することでその移植コストを調査し,OpenMP による移植との性能比較評価を行った.その結果,PGI コンパイラを用いた場合においては,基準となる変更なしの UPACS から 9.5 倍,OpenMP により並列化し 6CPU コアで実行した場合と比較して 15%の性能向上を得た.またさらなる高速化に向けて,ボトルネック部分の最適化の検討,CUDA Fortran の適用に向けた予備評価を行った結果を報告する.
著者
山口 訓央 高木 将通 堀 敦史 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-152, no.8, pp.1-10, 2015-12-09

InfiniBand を用いたハイパフォーマンスコンピューティング向けの通信ライブラリにおいて,通信性能低下を最小限に抑えながら,100 万ノードでの並列実行を可能にするメモリ消費削減手法を考察する.対象とする通信ライブラリは,MPI ライブラリとその下位に位置する低レベル通信ライブラリである.また,NUMA ノード内を OpenMP で並列化し,NUMA ノード間を MPI で並列化することを想定する.これらの通信ライブラリでは,並列実行ノード数と NUMA ノード数が増加した際のノードあたりメモリ消費量の増加が課題となる.この課題を解決するため,通信コンテキストの総数を制限する手法,また複数の通信相手で一つの資源を共有する手法,また複数の MPI プロセスでオブジェクトを共有する手法を考察する.本手法は,1 ノードあたり 4MPI プロセスとした場合,100 万ノードを用いた並列実行において,1 ノードあたりメモリ消費量を 1.00GB に抑えることができる.
著者
芹沢 和洋 建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-168, no.25, pp.1-10, 2019-02-26

深層ニューラルネットワークの訓練には大量のデータが必要となり,訓練処理時間の長期化が問題となっている.訓練時間の短縮方法として,複数の訓練データを用いて訓練処理を行うミニバッチ訓練という手法が知られている.本研究では,訓練処理時間と関連性が考えられる,訓練処理中の GPU 利用率を最大化するという最適化手法を用いて.訓練処理時間を可能な限り最短にすることができるミニバッチサイズを決定する方法を提案した.提案手法を深層学習フレームワークである Chainer を用いて実装した.Cifar 100 と ImageNet の 2 種類の画像データセットおよび VGG 16 と ResNet 50 の 2 種類の畳み込みニューラルネットワークを用いて提案手法の評価を行った結果,GPU 利用率のみを最大化するアプローチでは訓練処理速度を最短とするミニバッチサイズを決定することは困難であるという結論となった.一方で,データセットごとに訓練処理中の GPU 利用率とミニバッチサイズとの間の相関性に異なる傾向が観察され,データサイズに起因するボトルネックが GPU 利用を阻害している可能性が発見された.
著者
清水 俊宏 中島 耕太
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-160, no.6, pp.1-6, 2017-07-19

近年のクラスタシステムは 1000 ノードを超える大規模なものが広がっており,1000 ~ 10000 台のサーバを接続して並列処理するシステムが登場している.PC クラスタを接続する際のトポロジーとしては Fat-Tree が広く採用されれているが,必要となるスイッチ台数が多いため,コストが高くなるとう問題点がある.この問題を解決するために,我々はすでに Fat-Tree に対してスイッチ数を削減する多層 Fullmesh やラテン方陣 Fat-Tree といったトポロジー構造の活用を提案し,そのトポロジー構造上での通信手法,特に最も高負荷な集合通信である All-to-all 通信の効率的な転送方式を提案している.本稿ではこれらの通信手法の実環境での評価 ・ 分析について論ずる.評価には NAS Parallel Benchmarks (NPB) を用い,NPB のうち処理中で All-to-all 通信が用いられるフーリエ変換 (FT) の処理性能を評価した.
著者
建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-162, no.6, pp.1-5, 2017-12-11

ストレージ性能はアクセスパターンにより大きく性能が変わり,多くの尺度が考えられる.IO-500 ベンチマークは HPC における典型的なアクセスパターンのベンチマーク集合で,性能値を幾何平均により一つのスコアとする.今後の標準的な IO ベンチマークとして期待されるものである.本研究では,IO-500 ベンチマークにより,Oakforest-PACS のストレージシステムを評価する.ファイルキャッシュシステムの評価では,個別ファイルの書込で 746 GiB / s,単一ファイルの書込で 600 GiB / s であった.IO-500 のスコアは 101.48 であり,2017 年 11 月の第 1 回目のリストで第 1 位であった.
著者
桑原 悠太 塙 敏博 朴 泰祐
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-151, no.12, pp.1-8, 2015-09-23

近年,GPU クラスタでは,GPU プログラミング環境として CUDA (Compute Unified Device Architecture) が標準的に用いられている.GPU クラスタ上での並列アプリケーションでは,CUDA 環境おいて,ノードを跨ぐ GPU 間通信が発生し,MPI などによりホスト CPU が処理するのが一般的である.そのため,通信が発生する毎に GPU 上の CUDA カーネルからホストに一旦制御を戻す必要があり,カーネル関数の起動や同期に伴うオーバーヘッドが生じる.特に並列処理における通信粒度が細かいほど,カーネル関数の起動回数も増え,オーバーヘッドも増加する.それだけでなく,プログラミングのコストが高く,CPU 向け MPI プログラムを GPU 並列化する場合にソースコードが煩雑になりやすいといった生産性の低下も問題となっている.これらの問題を解決するために,本研究では GPU カーネル内から MPI 通信の起動を可能とする並列通信システム “GMPI” を提案・開発する.これにより,並列 GPU プログラミングを簡単化し,GPU カーネルの起動や同期に伴うオーバーヘッド削減による並列処理効率の向上を目指す.本稿では,GMPI の実装と,Ping-Pong 通信および姫野ベンチマークの性能評価を行う.現状では性能最適化やチューニングが十分でなく,Ping-Pong 通信では従来方式とほぼ同等の性能であるが,姫野ベンチマークでは従来手法の約半分の性能が得られている.
著者
成林 晃 南里 豪志 天野 浩文
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.34, pp.1-9, 2016-08-01

近年,大規模化する並列計算機において,集団通信による通信時間の影響を減らす手法として,非ブロッキング集団通信による通信時間を計算時間で隠蔽する高速化手法が注目されている.非ブロッキング集団通信において,計算と並行して通信を進めるための実装の一つに,スレッドを用いる手法がある.これは progress thread と呼ばれる,通信専用のスレッドを利用するものであり,この手法は他の実装に比べ,利用が容易で,かつ通信を隠蔽しやすいという特徴がある.現在,この手法による非ブロッキング集団通信の実装を選択できる MPI ライブラリはいくつかあるものの,通信隠蔽の効果が十分検証されておらず,実用性が不明である.そこで本稿では,それらの実装による通信時間隠蔽の効果を調査した.実験の結果,メッセージサイズが小さいと progress thread を利用することによるオーバヘッドによりかえって遅くなる場合がある,等の傾向を確認できた.
著者
田渕 晶大 木村 耕行 鳥居 淳 松古 栄夫 石川 正 朴 泰祐 佐藤 三久
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-154, no.3, pp.1-7, 2016-04-18

電力当たりの性能が重要視される中,低消費電力のアクセラレータとして PEZY-SC が注目されている.PEZY-SC のプログラミングには OpenCL をベースとした PZCL が提供されているが,その記述は煩雑で生産性が低い.そこでアクセラレータ向けの指示文ベースプログラミングモデルである OpenACC のコンパイラを PEZY-SC 向けに設計・試作する.Suiren Blue (青睡蓮) を用いた評価では,OpenACC コードは PZC Lコードと比較して N-Body では 98%以上,NPB CG では最大 88%の性能が得られた.また OpenACC は指示文を用いた簡潔な記述により PZCL の半分以下のコード行数で実装できたことから,高い生産性と十分な性能を達成できた.
著者
平山 弘
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-151, no.14, pp.1-6, 2015-09-23

Taylor 級数の四則演算および関数は C++ 言語によって容易にできる.四則演算,関数,条件文等で記述された C++ 言語で定義された関数は容易に Taylor 展開できる.解は任意次数まで計算できるので,Runge-Kutta に代わる任意次数の公式として使うことができる.Taylor 級数を使えば,誤差評価も容易に行え,許容誤差内の適切なステップサイズを容易に求められる.さらに,べき級数を Pade 展開に変換し,それを利用すると任意次数で A 安定な常微分方程式を解く数値計算法を与える.偏微分方程式を空間的に差分化し,得られる連立常微分方程式を時間方向にべき級数法を適用して解くことを提案する.この方法を使うと安定で精度の高い計算ができる.本文では,空間方向に精度の高いコンパクト差分近似法を使って,偏微分方程式を連立常微分方程式で高精度で近似し,それを A 安定な Taylor 展開法で解き,精度の高い計算が出来た.例題の拡散方程式では,絶対誤差が 10-10 程度以下の計算が出来た.
著者
遠藤 亘 田浦 健次朗
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-160, no.37, pp.1-10, 2017-07-19

本研究では,分散共有メモリ (Distributed Shared Memory, DSM) システムと分散スレッドスケジューラを統合したライブラリを開発し,並列分散環境において透過的でスケーラブルな共有メモリプログラミングを実現することを目指している.従来の DSM 処理系で問題となってきたコヒーレントキャッシュの低スケーラビリティを改善するため,スレッド依存関係に基づいた緩和型コンシステンシモデルを基本として,計算ノードをまたいだ動的負荷分散とコヒーレンスプロトコルによる通信を協調させる手法を導入する.DSM の実装において今回はページベース DSM とし,ディレクトリベースのコヒーレンスプロトコルを実装する.分散スレッドスケジューラにはユーザレベルスレッドを用い,DSM 上にコールスタックを配置することで透過的スレッド移動を実現する.このような実装手法により,利用者にはユーザレベルスレッドやヒープ領域の生成・破棄等の API が 提供され,マルチコアプロセッサ上のタスク並列処理系相当の生産性を分散環境において実現できる.また,並行開発した HPC インターコネクト用の低水準通信ライブラリを基礎として,RDMA の利用を踏まえた DSM とスケジューラの実装を行う.本稿では,開発した処理系において共有メモリのベンチマークプログラムを動作させて初期評価を行い,その結果を元に性能上の今後の課題について論ずる.
著者
中島 研吾 大島 聡史 塙 敏博 星野 哲也 伊田 明弘
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-157, no.16, pp.1-8, 2016-12-14

SELL-C-σ 法は疎行列演算の性能を高める行列格納手法として注目されているが,これまでは専ら疎行列ベクトル積に適用されてきた.科学技術計算において広く使用されている ICCG 法は前進後退代入,不完全コレスキー分解等のデータ依存性を有するプロセスを含むため,多色順序付け等によって並列性を抽出する必要がある.本研究は世界でも初めて,ICCG 法に SELL-C-σ 法を適用した事例である.Intel Xeon Phi (Knights Corner,Knights Landing) 上での性能評価を実施し,特に Knights Landing 上では従来手法と比較して高い性能改善を達成することができた.
著者
津金 佳祐 中尾 昌広 李 珍泌 村井 均 佐藤 三久
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.29, pp.1-8, 2016-08-01

近年,高性能計算分野においてチップ内に多くのコアを搭載するメニーコアプロセッサを用いた大規模並列システムが登場している.そのようなシステムにおける並列化手法の一つとしてタスク並列が注目されており,本稿では,分散メモリ環境上での動的なタスク並列処理をより簡易な記述で実装可能とすべく PGAS 言語 XcalableMP(XMP) の拡張を行う.記述として tasklet 指示文を提案し,ノード内/外におけるタスク間の依存関係の記述による細粒度な同期や,通信と計算のオーバラップによる性能向上を目指す.タスク生成や制御は Argonne National Laboratory(ANL) により開発が進められている軽量スレッドライブラリである Argobots を用いる.現在は,実装対象である Omni XMP Compiler のランタイムのみの実装であるため,コード変換は手動で行う.提案手法の予備評価としてブロックコレスキー分解のコードを対象とし,性能・生産性の評価を行った.比較対象は,MPI+OpenMP による実装と INRIA によって開発が進められている StarPU による実装である.StarPU 実装との比較では一部優位な点が見られたが,MPI+OpenMP 実装との比較では最大で約 15%の性能低下が見られた.生産性の比較では,指示文による記述を採用したことによりベースコードから少ない変更で実装可能なことから,tasklet 指示文による記述の生産性の高さを示した.