著者
宇川 斉志 佐藤 三久 朴 泰祐 児玉 祐悦 山口 佳樹 山本 淳二
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2015-HPC-148, no.24, pp.1-8, 2015-02-23

エクサスケールの計算機の実現にあたって文部科学省の委託研究により大量の演算器を 1 つのマスタープロセッサで制御する Extreme SIMD アーキテクチャが提案された.本稿では Extreme SIMD アーキテクチャ上で実行できるバイナリを生成するためのプログラミングモデルの一つとして Extreme SIMD 向け拡張 C について述べ,それを用いて Extreme SIMD アーキテクチャのシミュレータによる評価を行う.Extreme SIMD 向け拡張 C は PE で実行される文を SIMD 制御文で囲むだけで簡単に指定することが可能で,メモリ操作などはライブラリ関数で提供されるという特徴を持つ.2 次元のラプラス方程式の差分法による計算を実行したところローカルメモリに入りきる 4096×4096 格子の問題サイズではピーク性能に対して最大 74%と高い実効効率を示すが,入りきらない問題サイズでは実効効率が 1 割未満になるという急激な性能低下を起こすことを確認した.
著者
塙 敏博 中村 遼 空閑 洋平 杉木 章義 田浦 健次朗
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-183, no.7, pp.1-9, 2022-03-10

mdx は,Society5.0 で目指しているデータの利活用に向けた高性能,柔軟かつセキュアなプラットフォームであり,全国 9 国立大学 2 国立研究所の共同運営による稼働を始めている.本稿では,マルチテナントに対応した仮想化プラットフォームである mdx の概要について紹介し,主に各種ストレージの基本性能について述べる.さらに,mdx におけるソフトウェア基盤整備として,仮想マシンテンプレートと構成管理ツール,Kubernetes によるコンテナ環境について述べる.
著者
河合 直聡 三木 洋平 星野 哲也 塙 敏博 中島 研吾
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-183, no.18, pp.1-9, 2022-03-10

限られた電力,設置面積で最大の性能を得られるスーパーコンピュータシステムを実現するためには,GPU 等の演算加速装置の導入が不可避となりつつある.汎用 CPU 向けに Fortran や C/C++ で記述され,OpenMP で並列化されたプログラムを CUDA 等を使って GPU 向けに書き直すことはコストがかかる.OpenMP にはバージョン 4.0 以降は GPU 等でプログラムを実行するオフローディング機能がサポートされている.本研究では,この機能を用いて,演算律速なアプリケーションである N 体計算およびメモリ律速なアプリケーションである ICCG 反復法に適用し,NVIDIA A100,AMD MI100 上での性能評価を実施した.結果,N 体計算では A100 上では CUDA 実装の 58.3%,MI100 上では HIP 実装の 71.9% の演算性能を確認した.また,ICCG 法では Stream Triad ベンチマークで計測したメモリースループットの 88%(A100)と 53%(MI100)を確認した.以上の結果から,OpenMP での GPU オフローディングは,MI100 上での ICCG 法を除いて,実用的な範囲と考える.
著者
泊 久信 平木 敬
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011-HPC-130, no.45, pp.1-7, 2011-07-20

計算機が高性能になったことにより,より大きな問題を解くことができるようになった.入力が計算結果として出力されるまでに演算器を通る回数も,問題の規模と反復回数に応じて大きくなった.計算アルゴリズムの中には,演算器を通る回数が増えると誤差が蓄積していくものがある.このようなアルゴリズムを,より高性能な計算機を用い大規模な問題に対して適用するためには,より高精度な浮動小数点演算が必要である.ところが,高精度な浮動小数点数を扱うハードウェアは市販品としては少なく,結果としてソフトウェア実装を用いるのが一般的であった.ソフトウェアによる実装は幅広い環境で動作させることができる利点がある一方,性能を出しにくいという欠点がある.性能が出ない場合,そもそも高精度な浮動小数点数を扱う必要性は低い.本研究では,IEEE 754 規格を拡張して,8 倍精度 (256-bit) 浮動小数点数を定義した.評価では,POWER7 マシンでの倍精度の演算と,8 倍精度演算の 64 ビットPowerPC アセンブリでの実装との性能を比較し,8 倍精度が倍精度の 1/44 程度の性能の劣化になることを確認した.ハードウェア実装として,CPU の FSB に FPGA が結合された,Convey HC-1 を用いて,高性能な演算器を実装した.この FPGA ベースの実装を用いた場合,POWER7 の 8 コアのシステムに比べ,約 4.5 倍の 8 倍精度浮動小数点処理性能を実現した.
著者
本谷 徹 須田 礼仁
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-133, no.30, pp.1-8, 2012-03-19

連立一次方程式の反復解法として広く使われている共役勾配法を大規模に並列化した際に律速となるのは,頻繁に現われる内積計算の通信遅延である.内積計算は計算機全体の集団通信を必要とすることから,大規模なアーキテクチャでの通信遅延は大きくなる.また強スケーリングにおいては計算粒度が小さくなり,通信遅延は相対的が大きくなってしまう困難を抱えている.物理的制約を超えての通信遅延削減は不可能なため,アルゴリズム側のアプローチによる通信遅延の削減が必要とされている.本稿では,共役勾配法の k+1 反復分の内積計算に必要な通信を 1 回で済ませることで集団通信を回避し,通信遅延を削減するk段飛ばし共役勾配法を提案,実装した.
著者
大友 広幸 横田 理央
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2021-HPC-180, no.7, pp.1-9, 2021-07-13

NVIDIA TensorCore は最大 300TFlop/s 以上の性能を持つ混合精度行列積演算回路である.TensorCore は深層学習からの高い行列積需要に対応するために開発されたが,線型方程式の反復解法やフーリエ変換など,深層学習以外の分野への応用も研究されている.密行列積計算も深層学習に限らず幅広い分野において重要な計算である.TensorCore は入力として半精度(FP16)行列をとるため,これを用いて単精度(FP32)密行列積計算を行う場合は,はじめに入力行列を半精度へ変換する必要がある.しかしこの操作によって単精度度行列積の計算精度が劣化する.そこで入力行列を半精度へ変換する際に失われる仮数部を別の FP16 変数で保持し,これを用いて単精度行列積の計算精度を補正する手法が考案された.この手法では単精度演算器を用いた行列積と比較して高速に計算可能ではあるが,誤差の蓄積が大きく計算精度が悪いという問題が確認されている.本研究ではこの誤差蓄積の原因となる 2 つの問題に着目し,それらの改善を行うことで,単精度演算器で計算した場合と同等の計算精度でより高速な単精度行列積手法を開発した.この手法をオープンソースの行列積ライブラリである NVIDIA CUTLASS に実装し,様々な入力行列での計算精度・計算性能の評価を行った.計算性能では 40TFlop/s 以上の性能を実現した.
著者
大島 聡史 永井 亨 片桐 孝洋
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2021-HPC-179, no.9, pp.1-9, 2021-05-07

CPU の性能は計算機システムの性能を左右する重要な要素である.スーパーコンピュータやデータセンタ,クラウド計算サーバ向けの CPU としては Intel 社の Xeon が多くのシェアを占めてきたが,近年では AMD 社の EPYC や,スーパーコンピュータ「富岳」や「不老」に搭載された富士通社の A64FX など新たな CPU への注目も高まっている.本稿では,ARM アーキテクチャに基づく最新の CPU である Ampere Altra の性能について報告する.A64FX をはじめとするいくつかの CPU とベンチマーク性能を比較し,性能や特徴を評価する.
著者
幸谷 智紀
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013-HPC-139, no.18, pp.1-8, 2013-05-22

実用上重要な 「固い」 常微分方程式を効率的に解くためには陰的解法が相応しい.我々は高次多倍長陰的 Runge-Kutta 法を混合精度反復改良法を用いて高速化し,ブロック三重対角化を行って効率化を図った多倍長精度の ODE ソルバーを開発した.今回はこのアルゴリズム全体に OpenMP による並列化を行い,マルチコア CPU 上において更なる高速化に成功した.本論文では多倍長 ODE ソルバーのアルゴリズムと数値的特性を示し,プロファイリングによってどの程度の性能向上が行われたかを明らかにする.
著者
宇野 篤也 岩本 光夫 八木 学 横川 三津夫
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-158, no.14, pp.1-5, 2017-03-01

近年,HPC システムの大規模化にともない,シミュレーション結果も膨大な量となっている.この膨大な計算結果を効率よく分析するための手段として,可視化等が用いられることが多く,可視化専用のハードウェアを搭載したシステムを利用することがよくある.この場合,シミュレーションを行ったシステムとのデータ連携が必要となる.これらのサーバが同一のサイトに設置されている場合は,ストレージ共有で対応できるが,異なるサイトに設置されているシステムを利用する場合には,ネットワーク経由でデータの転送を行うことになり,高速なデータ転送が求められる.今回,スーパーコンピュータ 「京」 と隣接する神戸大学統合研究拠点の計算科学教育センターに設置された可視化用計算サーバ 「π-VizStudio」 を直接ネットワークで接続し,データ転送性能評価を行ったので報告する.
著者
金森 逸作 中村 宜文 似鳥 啓吾 辻 美和子 向井 優太 三吉 郁夫 松古 栄夫 石川 健一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2020-HPC-177, no.22, pp.1-8, 2020-12-14

格子 QCD は,隣接通信を多用する典型的な HPC 計算であり,線形ソルバー内での縮約計算の頻度も高い.そのため,スーパーコンピュータ「富岳」開発において,ハードウェア・システムソフトウェア・アプリケーションソフトウェアが共同して開発にあたるコデザインの対象の一つになっている.本講演では,コデザインの成果を踏まえて実現した,富岳向けの格子 QCD 用疎行列線形ソルバーにおける通信の高速化について報告する.隣接通信には低レイテンシの uTofu インターフェースを用いており,MPI 持続通信を用いるよりも小さな通信オーバーヘッド,きめ細かな通信リソースの割り付けを実現している.また内積計算に必要な少数要素の縮約についても,Tofu バリアと呼ばる機能で高速化を実現している.
著者
石村 脩 吉本 芳英
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.14, pp.1-6, 2016-08-01

今日のHigh Performance Computing (HPC) では,処理の高速化のため,General Purpose computing on GPU (GPGPU) が頻繁に用いられている.しかし,一般的にこれらで用いられている GPU は CPU に汎用バスを介して接続されているため,CPU と GPU の間のデータ転送や処理の切り替えが遅く,粒度の細かい並列処理には向かない.一方で近年開発が進められている Heterogeneous System Architecture (HSA) では,汎用バスを介したデータ転送ではなく CPU と GPU で仮想空間を含めて統合されたメモリによるデータ共有 (Heterogeneous Uniform Memory Access) やカーネルモードへのコンテキストスイッチをせずに GPU にジョブを渡すことを可能とする機構 (Heterogeneous Queuing) が用意され,この問題への対応がなされていると主張されている.しかし,HSA が HPC において,実際にどの程度の効果を持つものであるか検証した先行研究は存在しない.そこで本研究では,HSA を採用した APU (Godavari) の性能評価を,データのアクセス遅延・バンド幅,および GPU のジョブの起動遅延に注目して行った.
著者
斎藤 睦夫 松本 眞
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011-HPC-131, no.3, pp.1-6, 2011-09-29

著者らは,状態空間127ビット,周期2127-1の疑似乱数生成器TinyMTを開発した.TinyMTはパラメータ化された疑似乱数生成器であり,パラメータを変えることによって異なる疑似乱数系列を生成することが出来る.パラメータを含めた使用メモリは,28バイトであり,レジスタや一次キャッシュなどの高速メモリへの格納に適している.出力の品質については,TestU014)のBigCrushで検定し,これをパスした.
著者
塙 敏博 中島 研吾 大島 聡史 伊田 明弘 星野 哲也 田浦 健次朗
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-156, no.10, pp.1-10, 2016-09-08

東京大学情報基盤センターでは,データ解析・シミュレーション融合スーパーコンピュータシステム Reedbush を導入し,2017 年 3 月より全系稼働開始予定である.Reedbush システムは,Intel Xeon E5 (Broadwell-EP) プロセッサに加えて NVIDIA Tesla P100 (Pascal) GPU を一部計算ノードに搭載する他,高速ファイルキャッシュシステムや,InfiniBand EDR などを始めとして導入時点で最新の技術を集めたシステムである.本稿では 2016 年 7 月から稼働を開始した汎用 CPU のみからなる Reedbush-U サブシステムの性能について報告する.
著者
中島 研吾 坂本 龍一 星野 哲也 有間 英志 塙 敏博 近藤 正章
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2020-HPC-174, no.5, pp.1-9, 2020-05-06

近年,科学技術計算において,低精度演算を積極的に活用することにより,計算時間を短縮する試みが活発に行われている.また,低精度演算による計算の精度を保証するための実用的手法についても研究が進められている.本研究では,アプリケーションの実装方法,問題規模と低精度演算による性能改善の関係に注目し,様々なハードウェア環境下での検討を実施した.
著者
田村遼也 今村俊幸 仲谷栄伸
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014-HPC-143, no.21, pp.1-7, 2014-02-24

近年提唱されている,特に縦長行列 (m×n かつ m≫n) の QR 分解アルゴリズム Tall Skinny QR(TSQR) は階層的な構造による高並列性と通信最適性により極めて注目が集まっている解法である.本研究では GPGPU による TSQR の実装の中でも,CPU 資源を極力使わず,主たる計算部分を GPU に担当させる完全オフロード実装に関する研究を進めた.現時点では TSQR のフルバリエーションは未完成ではあるが,上三角行列Rの集約計算を限定したものの完全オフロード化に成功している.既存の GPU 数値計算ライブラリの代表格である MAGMA と比較しても,高速化するケースがあり,TSQR の並列性と GPU の高い処理能力が立証されたといえる.
著者
竹田 大将 近藤 鯛貴 佐藤 裕幸 杉野 栄二
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-172, no.3, pp.1-7, 2019-12-11

我々は低コスト・省電力・省スペース化を目指し Raspberry Pi 上の GPGPU により,高負荷計算実現が可能か研究を行っている.今回はその Raspberry Pi GPGPU の 1 応用として,超解像処理システムを構築することを検討した.超解像技術は様々な手法が提案されているが,中でも Total Variation (TV) 正則化分離を用いた手法は最も有望なもののひとつと考えられる.TV 正則化分離は,入力画像を低周波成分とエッジ成分から構成される骨格成分,高周波成分とノイズから構成されるテクスチャ成分に分離する処理である.本稿では安価でありながら理論性能 24GFLOPS の GPU (VideoCore IV) が搭載されている特徴を持つ Raspberry Pi にて超解像処理の主要計算部のひとつである TV 正則化分離の GPGPU 化について評価を行った.その結果,CPU のみで演算を行う実装に比べて約 12 倍の高速化に成功し,汎用的な PC と比較しても Raspberry Pi GPU の価格性能比は圧倒的に高いことが確認できた.
著者
小川 宏高 松岡 聡 佐藤 仁 高野 了成 滝澤 真一朗 谷村 勇輔 三浦 信一 関口 智嗣
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-160, no.28, pp.1-7, 2017-07-19

国立研究開発法人産業技術総合研究所 (以降,産総研) では,平成 28 年度二次補正 「人工知能に関するグローバル研究拠点整備事業」 の一環として,平成 29 年度末に,東京大学柏 II キャンパスに,「AI 橋渡しクラウド (AI Bridging Cloud Infrastructure)」 (以降,ABCI という) の導入を計画している.ABCI は,我が国の人工知能技術開発のためのオープンなリーディングインフラストラクチャの実現を目指し,アルゴリズム (Algorithm),ビッグデータ (Big Data),計算能力 (Computing Power) の協調による,高度な人工知能処理を可能にする大規模かつ省電力なクラウド基盤である.本稿では,ABCI のサーバシステムにフォーカスしつつ,ABCI の概要と,システム設計上の論点と我々が採った方策について紹介する.
著者
近藤 鯛貴 竹田 大将 佐藤 裕幸
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-172, no.15, pp.1-6, 2019-12-11

Intel HD Graphics (IHD) とは Intel 社の開発する CPU 統合 GPU である.高いグラフィック性能を必要としない安価なコンピュータ向けに作られていることから低コストかつ低消費電力である.しかし,近年ではその性能もあがり理論性能で約 1TFlops の製品も登場し,計算資源として非常に有用である.また,2018 年に Intel が公式に IHD 用 GPGPU 言語である C for Metal (CM) を公開したことにより IHD の計算資源を GPGPU 用途で活用できるようになった.そこで本研究では CM の言語仕様を調査し,いくつかの GPGPU プログラムを実装した.Flops による理論性能と実測性能の評価を行ったところ,サンプルの行列積プログラムにて 81.60 %の性能率を確認し,同 SoC 内の CPU と計算時間で比較したところ約 57 倍高速に動作し,IHD および CM の GPGPU 用途における有用性を示した.
著者
大八木 哲哉 浅田 風太 三輪 忍 八巻 隼人 本多 弘樹
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-172, no.24, pp.1-8, 2019-12-11

最先端のスーパーコンピュータは膨大な電力を消費しており,優れた電力管理手法が必要とされている.スーパーコンピュータの CPU やメモリには製造ばらつきに起因する消費電力のばらつきが存在することが報告されており,電力管理手法の開発においては電力ばらつきの影響を考慮した方がよいと考えられる.一方,演算アクセラレータとして多くのスーパーコンピュータに搭載されている GPU については,電力ばらつきに関する報告がほとんどない.我々は,これまでに,Reedbush-H に搭載された計 240 基の GPU には最大 16% の電力ばらつきが存在することを確認し,ばらつきの影響を考慮した電力モデルを高速に生成する手法を提案している.今回,さらに多くの GPU の電力を計測するために評価環境として T SUBAME3.0 を用い,計 256 基の GPU を対象に電力ばらつきの確認と上記手法の有効性の確認を行った.本稿ではその結果を報告する.
著者
塙 敏博 伊田 明弘 大島 聡史 河合 直聡
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.40, pp.1-9, 2016-08-01

近年,FPGA (Field Programmable Gate Array) に対して新たな高性能計算向けのハードウェアとして注目が集まっている.FPGA は対象とする処理に合わせた最適な回路構成を用いることで高い性能や高い電力あたり性能を得られる可能性がある.さらに OpenCL を用いてプログラムコードの形で記述するだけで,FPGA 上のハードウェアとして容易に実現が可能な環境が整ってきた.本研究では,階層型行列における行列ベクトル積演算を対象に,FPGA 上に実装を行う.階層型行列は,小さな密行列と低ランク近似行列から構成される.階層型行列ベクトル積を行うには,これら構成行列に依存して入り組んだ処理が必要となる.このような問題に対して OpenCL を用いて FPGA 向けの実装を行い,コードの最適化方法と性能について比較する.