著者
鈴木 惣一朗 伊東 聰 酒井 憲一郎 稲田 由江 三吉 郁夫 石川 裕 宮野 悟
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2021-HPC-178, no.18, pp.1-9, 2021-03-08

我々はスーパーコンピュータ「富岳」開発プロジェクトのターゲットアプリケーションのひとつとして,ヒト全ゲノム解析プログラム Genomon の「富岳」向け移植と最適化を行ってきた.本稿では,その最適化内容と「富岳」での性能評価について報告する.Genomon の実行性能はディスク I/O 性能に依存するため,特に「富岳」に実装された LLIO(Lightweight Layered IO-Accelerator)ファイルシステムをどのように活用したかを中心に報告する.また,Genomon のスループット性能向上のために試みた複数パイプライン同時実行についても報告する.
著者
住元 真司 稲田 由江 三輪 英樹 三吉 郁夫
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-172, no.6, pp.1-6, 2019-12-11

本稿では,Arm SVE プロセッサである A64FX 上で可変ベクトル長バイナリを用いた著名 HPC ベンチマークプログラムの評価について報告する.A64FX は Arm SVE アーキテクチャに対応しているため実行時に SIMD ベクトル長を変更できる上,独自にメモリバンド幅も変更可能である.これらの機能を用いて著名ベンチマークの実行特性を評価する.
著者
山田 芙夕楓 川上 健太郎 栗原 康志 松田 一仁 田原 司睦
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-185, no.4, pp.1-6, 2022-07-20

Arm プロセッサ用の HPC 向け命令セットである SVE が開発され,スーパーコンピュータ「富岳」では,この命令セットを採用した Fujitsu Processor A64FX が使用されている.Python の数値演算ライブラリである NumPy は SVE に対応しておらず,A64FX の性能を十分に引き出せていない.そこで今回 NumPy を SVE 対応したので報告する.特に配列に対する超越関数の処理では,A64FX の性能を引き出すように ①SIMD 化と ②ループ 展開数の最適化の 2 つの工夫を行い,配列データに対する超越関数処理を 24 倍高速化した.
著者
大友 広幸 坂本 亮
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-187, no.14, pp.1-7, 2022-11-24

古典計算機で解くことが難しい問題であっても,一部の問題は量子計算機を用いることで効率的に解くことが可能である.量子計算機の実機は現在開発が進められている一方,操作中に外的要因によるエラーが発生し,実用に耐えうるものではない.そこで量子計算機の計算精度評価や量子アルゴリズム開発の支援,量子超越性評価のために古典計算機上での量子計算機シミュレーションの研究が行われている.本研究では PEZY-SC3s プロセッサ用に既存の量子回路シミュレータを移植し,その計算精度・計算速度・消費電力の GPU との比較を行った.
著者
石村 脩 吉本 芳英
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-185, no.29, pp.1-8, 2022-07-20

ドメイン特化言語 (DSL) による高速化のアプローチの問題の一つとして,DSL プラットフォーム自身の移植性の低さがあげられる.この問題を解決するため,我々はアスペクト指向プログラミング (AOP) を用いた DSL 作成プラットフォームを提案している.当プラットフォームでは,AOP を用いることで,HPC システムを利用するためのランタイムコードや最適化機構のコードをモジュール化することを可能としている.しかし,DSL で書かれたカーネルコード自体の変更を行わないため,SIMD や GPU オフローディングができない問題点が存在した.本研究では,当問題を解決するため,プラットフォーム及び AOP のアスペクトに JIT コンパイラを導入し,動的にカーネルコードを生成・実行する手法を考案し,評価を行った.
著者
井手口 裕太 大野 善之 石坂 一久
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2020-HPC-173, no.15, pp.1-6, 2020-03-09

Top-N 推薦のための高精度かつ高速なアルゴリズムである SLIM のベクトル演算を用いた高速化手法を提案する.Top-N 推薦は,過去の購入履歴などを学習することでユーザーに推薦するアイテムを決定する問題であるが,膨大なデータを利用する学習時間の短縮が求めらている.SLIM はスレッド並列化が考慮されたアルゴリズムであるが,高性能ベクトルコンピュータ SX-Aurora TSUBASA で高速化するには,効率的なベクトル演算手法を開発する必要があった.本稿では,SLIM の主要処理に対するベクトル演算手法を提案し,SX-Aurora を用いた高速化を可能とする.Top-N 推薦でよく利用される MovieLens データセットを用いた評価では,提案する SX-Aurora を用いた SLIM は,2 ソケット Xeon に比べて 3.3 倍の高速であることを確認した.
著者
芹沢 和洋 建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-170, no.9, pp.1-12, 2019-07-17

深層ニューラルネットワークに使用される訓練データの規模は年々増加しており,深層ニューラルネットワークの訓練処理において訓練データの read I/O は無視できないボトルネックになりつつある.ノードローカルストレージとして搭載された SSD などの I/O が高速なストレージデバイスを使用することで read I/O の高速化は可能であるが,HPC クラスタにおいては毎回訓練データセットのファイルコピーが毎回必要であるという課題がある.また,HPC クラスタの計算ノードからネットワークを経由してアクセス可能な外部ストレージは訓練データセットをファイルコピーせずに訓練処理を開始できるが,SSD ほどのバンド幅は見込めない.本研究では,ノードローカルストレージと外部ストレージを組み合わせて使用することで事前に訓練データセットのコピーをせずに read I/O を高速化する手法を提案する.提案手法を機械学習フレームワークである Chainer に実装し,Chainer が提供する並列に訓練データを read する機能をベースラインとして,read I/O 性能を自作したベンチマークによって比較したところ,Lustre に訓練データを配置した場合のベースラインよりも,より少ないプロセス数を使用して最大で約 20% 高い read I/O 性能を達成できることを示した.データ並列訓練における 10 epoch の訓練時間の比較では,訓練データセットのファイルコピーに要する時間を考慮するとベースラインと SSD の組み合わせよりも訓練処理時間を短縮できることを示した.一方で,データ並列訓練においては read I/O ではなく AllReduce による処理時間が律速するため,ストレージ間の I/O 性能が処理時間に反映されにくいという,データ並列訓練の所要時間における特性を明らかにした.
著者
石田 翔太郎 須田 礼仁
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-152, no.5, pp.1-18, 2015-12-09

計算機上で整数一様乱数を生成する方法については,これまで多くの論文が発表されてきた.一方で,浮動小数点数一様乱数を生成する方法 (または整数一様乱数から浮動小数点数一様乱数への変換法) については,多くの場面で整数一様乱数を定数で割る方法 (rand()/232など) が用いられてきた.しかしながら,この方法では特定の形式の浮動小数点数しか生成されず,ほとんどの浮動小数点数は生成されない.これに対して,Moler は [2-53,1-2-53] の範囲にある全ての浮動小数点数を生成可能な一様乱数生成器を提案し,その後 Thoma により,その範囲は (0,1) にまで拡張された.しかしながら,Thoma により提案された手法は,浮動小数点数の丸めモードによっては,隣り合う浮動小数点数の出現確率が 3 倍程度異なる箇所が生じるといった,不自然な挙動を取ることが実験的及び理論的な検証から分かった.そこで,本論文はこの不自然な挙動を修正することを目的とした上で,まずは正しい浮動小数点数一様乱数生成器について議論し,続いてそのような生成器を提案すると共にその正当性を示し,最後に,提案された生成器の性能を実験により示した.
著者
瓜生 侑 遠藤 敏夫
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-185, no.28, pp.1-7, 2022-07-20

C++17 における実行ポリシーを用いたコードと kokkos を用いたコードはラムダ式を用いて記述され,高い移植性を持つことを特徴とし,CPU・GPU どちらでも並列実行が可能である.今回は,これらのコードを既存の並列プログラミングと性能の比較を行った.実験環境は本学のスーパーコンピューター TSUBAME3.0 である.また,それぞれのプログラムにブロッキングを施し,その性能とプログラミングコストについても比較を行った.
著者
Satoshi Matsuoka Hideharu Amano Kengo Nakajima Koji Inoue Tomohiro Kudoh Naoya Maruyama Kenjiro Taura Takeshi Iwashita Takahiro Katagiri Toshihiro Hanawa Toshio Endo
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.32, pp.1-14, 2016-08-01

Slowdown and inevitable end in exponential scaling of processor performance, the end of the so-called “Moore's Law”is predicted to occur around 2025-2030 timeframe. Because CMOS semiconductor voltage is also approaching its limits, this means that logic transistor power will become constant, and as a result, the system FLOPS will cease to improve, resulting in serious consequences for IT in general, especially supercomputing. Existing attempts to overcome the end of Moore 's law are rather limited in their future outlook or applicability. We claim that data-oriented parameters, such as bandwidth and capacity, or BYTES, are the new parameters that will allow continued performance gains for periods even after computing performance or FLOPS ceases to improve, due to continued advances in storage device technologies and optics, and manufacturing technologies including 3-D packaging. Such transition from FLOPS to BYTES will lead to disruptive changes in the overall systems from applications, algorithms, software to architecture, as to what parameter to optimize for, in order to achieve continued performance growth over time. We are launching a new set of research efforts to investigate and devise new technologies to enable such disruptive changes from FLOPS to BYTES in the Post-Moore era, focusing on HPC, where there is extreme sensitivity to performance, and expect the results to disseminate to the rest of IT.
著者
菱沼 利彰 五十嵐 亮 寺村 俊紀 森田 直樹 井原 遊
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2021-HPC-180, no.3, pp.1-11, 2021-07-13

近年,プロセッサアーキテクチャの多様化が進んでいる.数値シミュレーションを様々なアーキテクチャで行うことを考えたとき,CPU では BLAS や LAPACK を用いれば密行列に対する演算が統一された API で利用できるが,アクセラレータでは多くの場合データ通信の制御や API の変更が必要になる.疎行列に対する演算は,一部のハードウェアベンダ製ライブラリが疎行列に対する演算を備えているが,全てのアーキテクチャで動作はせず,統一された API は定義されていない.著者らは,真に有用な線形代数ライブラリは実用されているすべてのアーキテクチャで動く必要があるとの考えから,各ベンダやライブラリのデータ型,行列格納形式,データ通信 API などを扱うための統一された API を定義し,すべてのアーキテクチャで動作する可搬性の高いオープンソースライブラリ monolish を提案する.本研究ではこの第一段階として,シングルノード,シングルデバイス向けに開発した提案ライブラリの性能を評価した.行列行列積,LU 分解,共役勾配法のプログラムを 8 つの環境で実行し,提案したライブラリを用いることですべての環境でプログラムを変更せずに動作する高性能かつ可搬性の高いプログラムを実現できることを示した.
著者
一場 利幸 津金 佳祐 新井 正樹 田原 司睦
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-168, no.17, pp.1-5, 2019-02-26

近年,HPC 用途の ARM プロセッサが開発されており,注目が集まっている.そのため,AArch64 をターゲットとしたコンパイラの最適化機能の重要性が増している.しかし,コンパイラ基盤 LLVM の AArch64 向け最適化は,GCC に比べて不十分であることが報告されている.具体的な例の 1 つとして,LLVM は,GCC に比べて多くのスピルコードを挿入する.LLVM が生成したコードを分析すると,空いているレジスタがあるにも関わらず,スピルコードが挿入される場合があった.本研究では,LLVM で挿入される不要なスピルコードについて述べ,それらを削減する方法を提案する.これは,従来通りに LLVM のレジスタ割付けを行った後に,その結果を変更してスピルコードを削減する方法である.2 パターンの不要なスピルコードに対して,提案方法を NPB に適用した結果,パターン 1 については平均 1.25%,パターン 2 については平均 2.87% のスピルコードを削減できた.
著者
Mateusz Bysiek Mohamed Wahib Aleksandr Drozd Satoshi Matsuoka
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2018-HPC-165, no.38, pp.1-7, 2018-07-23

We present a method for accelerating the execution of Python programs. We rely on just-in-time automatic code translation and compilation with Python itself being used as a high-level intermediate representation. We also employ performance-oriented code transformations and compiler directives to achieve high performance portability while enabling end users to keep their codebase in pure Python. To evaluate our method, we implement an open-source transpilation framework with an easy-to-use interface that achieves performance better than state-of-the-art methods for accelerating Python.
著者
石坂 一久 大野 善之 Sourav Saha 大道 修 小寺 雅司 荒木 拓也
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-187, no.9, pp.1-6, 2022-11-24

データフレームコンパイラを搭載し利便性と高速性の両方を実現するデータフレーム用 Python ライブラリ Ducks を紹介する.データフレームは,github で 35K star を誇る Pandas に代表されるように,データ分析や前処理に広く用いられているが,データ量の増大や分析の複雑化により高速化が求められている.Ducks は HPC で培われてきた実行時コンパイル技術を用いることで,ライブラリ呼び出しを直接実行するのではなく,データフーム用の中間言語(IR)を生成して遅延実行を行う方式を採用している.これにより API とその実行を分離し,Pandas 互換の API を提供しながら,IR 上でのドメイン特化の最適化,ターゲットプラットフォームに最適化されたバックエンドによる IR 実行により高速性も実現する.ベンチマーク集である TPCx-BB,TPC-H に含まれる 45 種類のデータ前処理・分析処理を用いた CPU 上での評価では,ライブラリを選択する impor t文の変更のみで,Pandas に対して最大 17 倍,平均 5.8 倍の性能向上を得ることができ,本方式の有効性を確認した.
著者
塙 敏博 中村 遼 空閑 洋平 杉木 章義 田浦 健次朗
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-183, no.7, pp.1-9, 2022-03-10

mdx は,Society5.0 で目指しているデータの利活用に向けた高性能,柔軟かつセキュアなプラットフォームであり,全国 9 国立大学 2 国立研究所の共同運営による稼働を始めている.本稿では,マルチテナントに対応した仮想化プラットフォームである mdx の概要について紹介し,主に各種ストレージの基本性能について述べる.さらに,mdx におけるソフトウェア基盤整備として,仮想マシンテンプレートと構成管理ツール,Kubernetes によるコンテナ環境について述べる.
著者
河合 直聡 三木 洋平 星野 哲也 塙 敏博 中島 研吾
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-183, no.18, pp.1-9, 2022-03-10

限られた電力,設置面積で最大の性能を得られるスーパーコンピュータシステムを実現するためには,GPU 等の演算加速装置の導入が不可避となりつつある.汎用 CPU 向けに Fortran や C/C++ で記述され,OpenMP で並列化されたプログラムを CUDA 等を使って GPU 向けに書き直すことはコストがかかる.OpenMP にはバージョン 4.0 以降は GPU 等でプログラムを実行するオフローディング機能がサポートされている.本研究では,この機能を用いて,演算律速なアプリケーションである N 体計算およびメモリ律速なアプリケーションである ICCG 反復法に適用し,NVIDIA A100,AMD MI100 上での性能評価を実施した.結果,N 体計算では A100 上では CUDA 実装の 58.3%,MI100 上では HIP 実装の 71.9% の演算性能を確認した.また,ICCG 法では Stream Triad ベンチマークで計測したメモリースループットの 88%(A100)と 53%(MI100)を確認した.以上の結果から,OpenMP での GPU オフローディングは,MI100 上での ICCG 法を除いて,実用的な範囲と考える.
著者
大友 広幸 横田 理央
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2021-HPC-180, no.7, pp.1-9, 2021-07-13

NVIDIA TensorCore は最大 300TFlop/s 以上の性能を持つ混合精度行列積演算回路である.TensorCore は深層学習からの高い行列積需要に対応するために開発されたが,線型方程式の反復解法やフーリエ変換など,深層学習以外の分野への応用も研究されている.密行列積計算も深層学習に限らず幅広い分野において重要な計算である.TensorCore は入力として半精度(FP16)行列をとるため,これを用いて単精度(FP32)密行列積計算を行う場合は,はじめに入力行列を半精度へ変換する必要がある.しかしこの操作によって単精度度行列積の計算精度が劣化する.そこで入力行列を半精度へ変換する際に失われる仮数部を別の FP16 変数で保持し,これを用いて単精度行列積の計算精度を補正する手法が考案された.この手法では単精度演算器を用いた行列積と比較して高速に計算可能ではあるが,誤差の蓄積が大きく計算精度が悪いという問題が確認されている.本研究ではこの誤差蓄積の原因となる 2 つの問題に着目し,それらの改善を行うことで,単精度演算器で計算した場合と同等の計算精度でより高速な単精度行列積手法を開発した.この手法をオープンソースの行列積ライブラリである NVIDIA CUTLASS に実装し,様々な入力行列での計算精度・計算性能の評価を行った.計算性能では 40TFlop/s 以上の性能を実現した.
著者
大島 聡史 永井 亨 片桐 孝洋
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2021-HPC-179, no.9, pp.1-9, 2021-05-07

CPU の性能は計算機システムの性能を左右する重要な要素である.スーパーコンピュータやデータセンタ,クラウド計算サーバ向けの CPU としては Intel 社の Xeon が多くのシェアを占めてきたが,近年では AMD 社の EPYC や,スーパーコンピュータ「富岳」や「不老」に搭載された富士通社の A64FX など新たな CPU への注目も高まっている.本稿では,ARM アーキテクチャに基づく最新の CPU である Ampere Altra の性能について報告する.A64FX をはじめとするいくつかの CPU とベンチマーク性能を比較し,性能や特徴を評価する.
著者
宇野 篤也 岩本 光夫 八木 学 横川 三津夫
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-158, no.14, pp.1-5, 2017-03-01

近年,HPC システムの大規模化にともない,シミュレーション結果も膨大な量となっている.この膨大な計算結果を効率よく分析するための手段として,可視化等が用いられることが多く,可視化専用のハードウェアを搭載したシステムを利用することがよくある.この場合,シミュレーションを行ったシステムとのデータ連携が必要となる.これらのサーバが同一のサイトに設置されている場合は,ストレージ共有で対応できるが,異なるサイトに設置されているシステムを利用する場合には,ネットワーク経由でデータの転送を行うことになり,高速なデータ転送が求められる.今回,スーパーコンピュータ 「京」 と隣接する神戸大学統合研究拠点の計算科学教育センターに設置された可視化用計算サーバ 「π-VizStudio」 を直接ネットワークで接続し,データ転送性能評価を行ったので報告する.
著者
金森 逸作 中村 宜文 似鳥 啓吾 辻 美和子 向井 優太 三吉 郁夫 松古 栄夫 石川 健一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2020-HPC-177, no.22, pp.1-8, 2020-12-14

格子 QCD は,隣接通信を多用する典型的な HPC 計算であり,線形ソルバー内での縮約計算の頻度も高い.そのため,スーパーコンピュータ「富岳」開発において,ハードウェア・システムソフトウェア・アプリケーションソフトウェアが共同して開発にあたるコデザインの対象の一つになっている.本講演では,コデザインの成果を踏まえて実現した,富岳向けの格子 QCD 用疎行列線形ソルバーにおける通信の高速化について報告する.隣接通信には低レイテンシの uTofu インターフェースを用いており,MPI 持続通信を用いるよりも小さな通信オーバーヘッド,きめ細かな通信リソースの割り付けを実現している.また内積計算に必要な少数要素の縮約についても,Tofu バリアと呼ばる機能で高速化を実現している.