著者
星野 哲也 松岡 聡
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-153, no.4, pp.1-10, 2016-02-23

航空機の開発などに用いられる圧縮性流体解析アプリケーションには多大な演算パワーが必要とされ,近年一般的になっている演算アクセラレータを用いたスーパーコンピュータの利用が推進されている.しかし一般に,既存のアプリケーションのアクセラレータ向けの移植・最適化には多大なコストが伴うことが知られている.本稿では,実際に用いられている圧縮性流体アプリケーション UPACS へ OpenACC を適用・最適化することでその移植コストを調査し,OpenMP による移植との性能比較評価を行った.その結果,PGI コンパイラを用いた場合においては,基準となる変更なしの UPACS から 9.5 倍,OpenMP により並列化し 6CPU コアで実行した場合と比較して 15%の性能向上を得た.またさらなる高速化に向けて,ボトルネック部分の最適化の検討,CUDA Fortran の適用に向けた予備評価を行った結果を報告する.
著者
山口 訓央 高木 将通 堀 敦史 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-152, no.8, pp.1-10, 2015-12-09

InfiniBand を用いたハイパフォーマンスコンピューティング向けの通信ライブラリにおいて,通信性能低下を最小限に抑えながら,100 万ノードでの並列実行を可能にするメモリ消費削減手法を考察する.対象とする通信ライブラリは,MPI ライブラリとその下位に位置する低レベル通信ライブラリである.また,NUMA ノード内を OpenMP で並列化し,NUMA ノード間を MPI で並列化することを想定する.これらの通信ライブラリでは,並列実行ノード数と NUMA ノード数が増加した際のノードあたりメモリ消費量の増加が課題となる.この課題を解決するため,通信コンテキストの総数を制限する手法,また複数の通信相手で一つの資源を共有する手法,また複数の MPI プロセスでオブジェクトを共有する手法を考察する.本手法は,1 ノードあたり 4MPI プロセスとした場合,100 万ノードを用いた並列実行において,1 ノードあたりメモリ消費量を 1.00GB に抑えることができる.
著者
高橋 悠 伊藤 一輝 成見 哲
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2015, no.31, pp.1-8, 2015-02-23

近年スマートフォンの普及に伴い,モバイル端末でゲームを遊ぶユーザが増えている.また,3D ゲームエンジンおよび統合開発環境である Unity がモバイルゲーム開発に広く使われており,企業に限らず個人開発者も多い.一方で,Unity の特徴である手軽に 3D 処理や物理演算を使えるといった利点は,比較的処理性能の低いモバイル端末では活かすのが難しいという問題がある.そこで,モバイル端末上では重い処理を行わせずネットワーク上に設置する Unity サーバーに処理を肩代わりさせる仕組みを開発した.モバイル端末上で走る専用のクライアントアプリがソケット通信によって操作入力をサーバーに送信し,サーバの実行した処理結果を画像として受信し表示することで,見かけ上は端末上で Unity アプリケーションが動作しているように見える.これにより,通常はモバイル端末で動かせない処理の重いアプリケーションであっても実用的な速度で実行できた.既存のクラウドゲーム環境と違い自分のアプリをクラウド化出来るのも特徴である.
著者
芹沢 和洋 建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-168, no.25, pp.1-10, 2019-02-26

深層ニューラルネットワークの訓練には大量のデータが必要となり,訓練処理時間の長期化が問題となっている.訓練時間の短縮方法として,複数の訓練データを用いて訓練処理を行うミニバッチ訓練という手法が知られている.本研究では,訓練処理時間と関連性が考えられる,訓練処理中の GPU 利用率を最大化するという最適化手法を用いて.訓練処理時間を可能な限り最短にすることができるミニバッチサイズを決定する方法を提案した.提案手法を深層学習フレームワークである Chainer を用いて実装した.Cifar 100 と ImageNet の 2 種類の画像データセットおよび VGG 16 と ResNet 50 の 2 種類の畳み込みニューラルネットワークを用いて提案手法の評価を行った結果,GPU 利用率のみを最大化するアプローチでは訓練処理速度を最短とするミニバッチサイズを決定することは困難であるという結論となった.一方で,データセットごとに訓練処理中の GPU 利用率とミニバッチサイズとの間の相関性に異なる傾向が観察され,データサイズに起因するボトルネックが GPU 利用を阻害している可能性が発見された.
著者
清水 俊宏 中島 耕太
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-160, no.6, pp.1-6, 2017-07-19

近年のクラスタシステムは 1000 ノードを超える大規模なものが広がっており,1000 ~ 10000 台のサーバを接続して並列処理するシステムが登場している.PC クラスタを接続する際のトポロジーとしては Fat-Tree が広く採用されれているが,必要となるスイッチ台数が多いため,コストが高くなるとう問題点がある.この問題を解決するために,我々はすでに Fat-Tree に対してスイッチ数を削減する多層 Fullmesh やラテン方陣 Fat-Tree といったトポロジー構造の活用を提案し,そのトポロジー構造上での通信手法,特に最も高負荷な集合通信である All-to-all 通信の効率的な転送方式を提案している.本稿ではこれらの通信手法の実環境での評価 ・ 分析について論ずる.評価には NAS Parallel Benchmarks (NPB) を用い,NPB のうち処理中で All-to-all 通信が用いられるフーリエ変換 (FT) の処理性能を評価した.
著者
成瀬 彰 中島 耕太 住元 真司 久門 耕一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2010-HPC-128, no.5, pp.1-8, 2010-12-09

本稿では、Fat-tree 構成の InfiniBand(IB) ネットワークにおける全対全通信時の Hot-spot 発生を回避する手法を提案·評価する。Fat-tree 構成の IB ネットワークでは、適切に使用する計算ノードを選択しないと、Hot-spot 発生により実行通信バンド幅が低下する。本稿では、任意の計算ノード割当てにおいて、全対全通信時の Hot-spot 発生を回避する手法を提案する。提案手法は、各計算ノードに複数の LID(Local Identifier) を割り当てる手法の一種である。全対全通信時の典型的な通信パターンであるシフト通信パターンに着目し、各計算ノード対に生成されるコネクション毎に、使用 LID を適切に選択することで、Hot-spot 発生を回避する。提案手法を OpenMPI で実装し、6-ary-2-tree トポロジーの Fat-tree 構成IBネットワークに接続した 30 ノードの PC クラスタシステムで性能を評価した。任意 16 ノードによる全対全通信性能を測定した結果、提案手法により全対全通信時の Hot-spot 発生を完全に回避できることを確認した。
著者
建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-162, no.6, pp.1-5, 2017-12-11

ストレージ性能はアクセスパターンにより大きく性能が変わり,多くの尺度が考えられる.IO-500 ベンチマークは HPC における典型的なアクセスパターンのベンチマーク集合で,性能値を幾何平均により一つのスコアとする.今後の標準的な IO ベンチマークとして期待されるものである.本研究では,IO-500 ベンチマークにより,Oakforest-PACS のストレージシステムを評価する.ファイルキャッシュシステムの評価では,個別ファイルの書込で 746 GiB / s,単一ファイルの書込で 600 GiB / s であった.IO-500 のスコアは 101.48 であり,2017 年 11 月の第 1 回目のリストで第 1 位であった.
著者
森江 善之 南里 豪志 安島 雄一郎 本田 宏明 曽我 武史 小林 泰三 住元 真司
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2015-HPC-148, no.33, pp.1-6, 2015-02-23

ACE (Advanced Communication for Exa) プロジェクトでは,省メモリかつ低遅延な低レベル通信ライブラリ ACP (Advanced Communication Primitives) の開発を実施している.今回は,HPC 分野で幅広く利用される InfiniBand を用いて,ACP 基本層を実装した.InfiniBand での ACP 基本層の実装方法の報告を行う.また,実装した ACP 基本層のメモリ使用量と通信性能の評価を行った.今回の評価では, InfiniBand の接続資源がメモリ使用量の多く占めることがわかった.また,初期実装の段階で中メッセージサイズ以上で Open MPI と同等の通信性能を示し,最大 20%の性能向上を示した.また,小メッセージサイズでの通信性能の問題を確認することが出来た.
著者
冨森 苑子 田邊 昇 高田 雅美 城 和貴
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-135, no.17, pp.1-7, 2012-07-25

エクサスケールマシンは複雑なメモリシステムとなることが予想されている.同マシンへの適用を視野に入れた疎行列ライブラリの実現に向け,本報告では疎行列のキャッシュへの適合性分類に資する疎行列の特性に関する新しい指標として 「列インデックス列の空間的局所性」 を提案する.さらに,入力疎行列および Fold 法前処理後の提案指標の値をフロリダ大学の疎行列コレクションを用いて評価した.その結果,疎行列ベクトル積処理性能と L1 キャッシュヒット率と新指標の間には有意な相関関係があることが確認できた.よって,従来から指摘していた行列サイズと併せ,本指標をアプリ固有の最適化を避けたメモリアクセス機構や前処理アルゴリズム自動選択の指標の一つとする.
著者
桑原 悠太 塙 敏博 朴 泰祐
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-151, no.12, pp.1-8, 2015-09-23

近年,GPU クラスタでは,GPU プログラミング環境として CUDA (Compute Unified Device Architecture) が標準的に用いられている.GPU クラスタ上での並列アプリケーションでは,CUDA 環境おいて,ノードを跨ぐ GPU 間通信が発生し,MPI などによりホスト CPU が処理するのが一般的である.そのため,通信が発生する毎に GPU 上の CUDA カーネルからホストに一旦制御を戻す必要があり,カーネル関数の起動や同期に伴うオーバーヘッドが生じる.特に並列処理における通信粒度が細かいほど,カーネル関数の起動回数も増え,オーバーヘッドも増加する.それだけでなく,プログラミングのコストが高く,CPU 向け MPI プログラムを GPU 並列化する場合にソースコードが煩雑になりやすいといった生産性の低下も問題となっている.これらの問題を解決するために,本研究では GPU カーネル内から MPI 通信の起動を可能とする並列通信システム “GMPI” を提案・開発する.これにより,並列 GPU プログラミングを簡単化し,GPU カーネルの起動や同期に伴うオーバーヘッド削減による並列処理効率の向上を目指す.本稿では,GMPI の実装と,Ping-Pong 通信および姫野ベンチマークの性能評価を行う.現状では性能最適化やチューニングが十分でなく,Ping-Pong 通信では従来方式とほぼ同等の性能であるが,姫野ベンチマークでは従来手法の約半分の性能が得られている.
著者
松尾 勇気 石川 裕
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.4, pp.1-4, 2014-02-24

時間発展シミュレーションは定期的に計算結果を出力するため、巨大なデータが生成される。そのデータサイズを縮小するため、データ圧縮技術が使われているが、ある時間ステップにおいて書き出すデータの隣接する値の類似性を活用している。本研究では、予測器に基づいた既存の高速な浮動小数点圧縮アルゴリズムを基にした時系列データ圧縮器 t-FPC を提案する。圧縮率を向上させるため、1 つの時間ステップに出力される中間データを、同一の時間ステップのデータ内部のものではなく、最近の複数の時間ステップで出力されたデータ間の差分を用いて圧縮を行う点でそれとは異なる。さらに、書き出す差分データ全体の bit 長の分布から可変サイズでデータを書き出すことにより圧縮率を向上する。また、連続して同じ値の場合、時間ステップの出力が全て同じ値の場合には、特別なエンコーディングをすることにより、圧縮率をさらに向上させる。時間発展シミュレーションである SCALE 気象・気候モデルの実際のファイル出力データを用いた評価により、t-FPC は、既存の浮動小数点データ専用の圧縮器や一般のデータ圧縮器に比べて、圧縮率や処理スループットの観点において、良い性能を達成していることを示す。Time evolution simulations generate a large amount of data periodically to ouput results. Existing compression techniques reduce data size by utilizing the similarity among the neighboring values inside the data that is written at one time step. In this paper, we propose t-FPC, a time-series data compression method that adapts the existing predictor based fast floating point compression algorithm. Compared to previous compression methods, it differs in the aspect that it compresses the intermediate result of one time step utilizing the finite differences among the data of recent multiple time steps, instead of those inside the data at the same time step in order to increase the compression ratio. In t-FPC, diffs are compressed with eight kinds of bit lengths. Those are determined based on bit length distribution of diffs. Special encoding is introduced for the two cases: one is that an element at one time step is the same as the previous time step, and another is that all elements at one time step is completely the same as the previous time step. Using the SCALE weather and climate model, it is shown that t-FPC achieves better processing speed and compression ratio than other data compressors including a famous floating point compressor.
著者
成林 晃 南里 豪志 天野 浩文
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.34, pp.1-9, 2016-08-01

近年,大規模化する並列計算機において,集団通信による通信時間の影響を減らす手法として,非ブロッキング集団通信による通信時間を計算時間で隠蔽する高速化手法が注目されている.非ブロッキング集団通信において,計算と並行して通信を進めるための実装の一つに,スレッドを用いる手法がある.これは progress thread と呼ばれる,通信専用のスレッドを利用するものであり,この手法は他の実装に比べ,利用が容易で,かつ通信を隠蔽しやすいという特徴がある.現在,この手法による非ブロッキング集団通信の実装を選択できる MPI ライブラリはいくつかあるものの,通信隠蔽の効果が十分検証されておらず,実用性が不明である.そこで本稿では,それらの実装による通信時間隠蔽の効果を調査した.実験の結果,メッセージサイズが小さいと progress thread を利用することによるオーバヘッドによりかえって遅くなる場合がある,等の傾向を確認できた.
著者
田渕 晶大 木村 耕行 鳥居 淳 松古 栄夫 石川 正 朴 泰祐 佐藤 三久
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-154, no.3, pp.1-7, 2016-04-18

電力当たりの性能が重要視される中,低消費電力のアクセラレータとして PEZY-SC が注目されている.PEZY-SC のプログラミングには OpenCL をベースとした PZCL が提供されているが,その記述は煩雑で生産性が低い.そこでアクセラレータ向けの指示文ベースプログラミングモデルである OpenACC のコンパイラを PEZY-SC 向けに設計・試作する.Suiren Blue (青睡蓮) を用いた評価では,OpenACC コードは PZC Lコードと比較して N-Body では 98%以上,NPB CG では最大 88%の性能が得られた.また OpenACC は指示文を用いた簡潔な記述により PZCL の半分以下のコード行数で実装できたことから,高い生産性と十分な性能を達成できた.
著者
田邊昇 冨森苑子 高田雅美 城和貴
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014-HPC-143, no.7, pp.1-10, 2014-02-24

疎行列ベクトル積 (SpMV) は多くの場合にキャッシュアーキテクチャとの相性が悪い.並列処理においては負荷不均衡が性能に与える影響も大きい.これまでは SpMV 性能を決める要因として,キャッシュのヒット率や一行あたりの非零要素数の平均,最大値,分散が注目されていた.しかし,それらと性能との相関が不明瞭であり,SpMV の挙動は長年にわたり謎に包まれていた.それは SpMV の最適化や,効率的な疎行列ライブラリ構築の障害であった.本報告では,SpMV 性能を左右する様々な要因をアプリケーション依存の要因とプラットフォーム依存の要因に分けて考察した.それを踏まえて行列の非零要素配置から導かれる時間的局所性と空間的局所性等のアプリ依存パラメータを導入した SpMV 性能モデルを構築した.その上でフロリダ大コレクションから抜粋した 115 種の疎行列と GPU を用いて SpMV 性能モデルの評価実験を行った.その結果,GPU 上で実行する場合は Padding に関する補正と小さな行列での補正が必要であることと,長行を折り畳むなど適切な負荷分散がなされた場合はキャッシュのヒット率よりも,空間的局所性やインデックス転送の抑制の方が実効性能に敏感であることが明らかになった.
著者
平山 弘
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-151, no.14, pp.1-6, 2015-09-23

Taylor 級数の四則演算および関数は C++ 言語によって容易にできる.四則演算,関数,条件文等で記述された C++ 言語で定義された関数は容易に Taylor 展開できる.解は任意次数まで計算できるので,Runge-Kutta に代わる任意次数の公式として使うことができる.Taylor 級数を使えば,誤差評価も容易に行え,許容誤差内の適切なステップサイズを容易に求められる.さらに,べき級数を Pade 展開に変換し,それを利用すると任意次数で A 安定な常微分方程式を解く数値計算法を与える.偏微分方程式を空間的に差分化し,得られる連立常微分方程式を時間方向にべき級数法を適用して解くことを提案する.この方法を使うと安定で精度の高い計算ができる.本文では,空間方向に精度の高いコンパクト差分近似法を使って,偏微分方程式を連立常微分方程式で高精度で近似し,それを A 安定な Taylor 展開法で解き,精度の高い計算が出来た.例題の拡散方程式では,絶対誤差が 10-10 程度以下の計算が出来た.
著者
住元真司 安島雄一郎 佐賀一繁 野瀬貴史 三浦健一 南里豪志
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.8, pp.1-7, 2014-02-24

エクサスケールシステムでは、極限までの通信遅延の削減を省メモリに実現する必要がある。本論文では、エクサスケール通信をめざして開発中の ACP スタックの設計についての設計方針と ACP スタックの概要について述べる。In communication on exascale system, low latency communication with reduction of memory usage is required. This paper discusses design policy of ACP stacks and overview for communication of exascale system.
著者
遠藤 亘 田浦 健次朗
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-160, no.37, pp.1-10, 2017-07-19

本研究では,分散共有メモリ (Distributed Shared Memory, DSM) システムと分散スレッドスケジューラを統合したライブラリを開発し,並列分散環境において透過的でスケーラブルな共有メモリプログラミングを実現することを目指している.従来の DSM 処理系で問題となってきたコヒーレントキャッシュの低スケーラビリティを改善するため,スレッド依存関係に基づいた緩和型コンシステンシモデルを基本として,計算ノードをまたいだ動的負荷分散とコヒーレンスプロトコルによる通信を協調させる手法を導入する.DSM の実装において今回はページベース DSM とし,ディレクトリベースのコヒーレンスプロトコルを実装する.分散スレッドスケジューラにはユーザレベルスレッドを用い,DSM 上にコールスタックを配置することで透過的スレッド移動を実現する.このような実装手法により,利用者にはユーザレベルスレッドやヒープ領域の生成・破棄等の API が 提供され,マルチコアプロセッサ上のタスク並列処理系相当の生産性を分散環境において実現できる.また,並行開発した HPC インターコネクト用の低水準通信ライブラリを基礎として,RDMA の利用を踏まえた DSM とスケジューラの実装を行う.本稿では,開発した処理系において共有メモリのベンチマークプログラムを動作させて初期評価を行い,その結果を元に性能上の今後の課題について論ずる.
著者
齋藤 祐典 佐藤 俊治 大村 純一 三好 健文 入江 英嗣 吉永 努
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.4, pp.1-8, 2011-03-08

人間の視覚機能を解明するために,その機能の線形モデルを計算機でシミュレーションする手法がある.しかし,計算負荷の問題から簡略化したモデルあるいは一部分だけのシミュレーションのみが行われている.そこで,シミュレーションを高速化するために,プログラムを並列化し,PCクラスタを用いて実行する.本稿では,シミュレーションのコアである畳み込み演算をMPIにより並列化することで,最大43%高速化を達成した.また,実装したシミュレータを用いて錯視画像のオプティカルフローを求めたところ, 錯視現象の要因が得られたことを示す.Numerical simulation for the linear model of visual neurons is the most important approach to understand our visual system from computational viewpoints. We attempt to parallelize the time-consuming simulation on a cluster computer system. We achieved 43% reduction in simulation time by MPI implementation of spatio-temporal convolution formulated in the linear model. Moreover, by analyzing the simulation results, unknown factors on visual illusion are unveiled.
著者
坪内 佑樹 置田 真生 伊野 文彦 山川 聡 柏木 岳彦 萩原 兼一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-133, no.31, pp.1-7, 2012-03-19

本稿では,重複排除ストレージのための SHA(Secure Hash Algorithm)-1 計算の高速化を目的として,SSE(Streaming SIMD Extensions) 命令に基づくスループット向上手法を提案する.提案手法は,異なる入力ファイルに対する処理が独立であることに着目し,SSE 命令によるベクトル処理および OpenMP によるマルチスレッド処理を併用する.実験では,単一ファイルを並列処理する既存手法と比較して 1.5 倍の速度向上を得ている.このときの実行効率は 93% に達し,計測したスループット 80 Gbps は PCI Express の実効帯域幅を超えている.したがって,重複排除ストレージにおける性能ボトルネックを除去できていると考える.
著者
中島 研吾 大島 聡史 塙 敏博 星野 哲也 伊田 明弘
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-157, no.16, pp.1-8, 2016-12-14

SELL-C-σ 法は疎行列演算の性能を高める行列格納手法として注目されているが,これまでは専ら疎行列ベクトル積に適用されてきた.科学技術計算において広く使用されている ICCG 法は前進後退代入,不完全コレスキー分解等のデータ依存性を有するプロセスを含むため,多色順序付け等によって並列性を抽出する必要がある.本研究は世界でも初めて,ICCG 法に SELL-C-σ 法を適用した事例である.Intel Xeon Phi (Knights Corner,Knights Landing) 上での性能評価を実施し,特に Knights Landing 上では従来手法と比較して高い性能改善を達成することができた.