著者
中村 晃一 野瀬 貴史 稲葉 真理 平木 敬
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011-HPC-130, no.63, pp.1-10, 2011-07-20

高性能計算分野では他の分野では使われる事の少なくなってきた Fortran・C 言語が使われ続けている.これらの言語はその生産性の低さと並列計算機向けの最適化の困難さが問題であり,高級なプログラミング言語を使用可能とする事は今後の重要な研究課題である.その様な目的の研究では並列構文を備えた専用の言語の研究・静的型付けの関数型言語の研究が主流であるが,これらが計算科学者にとって使い易いものであるとは言い難い.我々は Ruby を用いて高性能計算を行う試みを行っている.Ruby はその記述の容易さ・高機能さから広く使われており,本言語に高性能計算に使用可能な性能を与える事の恩恵は大きい.本稿では我々の試みの第一歩として,Ruby の為の型解析手法の提案を行う.動的言語である Ruby は静的言語に比べ解析が困難であると考えられているが,部分評価手法と抽象解釈手法を組み合わせることにより十分な精度での解析を行う事が可能である.また,我々は開発した解析手法に基づいて,Ruby の実行前最適化コンパイラ HPC Ruby を開発した.本稿時点では単一プロセッサ向けの基本的な最適化を実装している.NAS Parallel Benchmark を用いた性能評価では最新の Ruby 処理系と比べ 100 倍以上の高速化を達成し,C 言語の性能の約 90% を実現する事が出来た.
著者
小田嶋哲哉 李珍泌 朴泰祐 佐藤三久 塙敏博 児玉祐悦 RaymondNamyst SamuelThibault OlivierAumage
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-135, no.9, pp.1-8, 2012-07-25

GPU クラスタ上でのプログラミングは,様々なプログラミングフレームワークが直交しており,複雑になってしまうことが多い.本研究では,XMP をアクセラレータを持つ並列計算機向けに拡張した言語仕様 XMP-dev の一実装として,GPU と CPU によるハイブリッドワークシェアリングを容易に行うことができる XMP-dev/StarPU を提案し,プロトタイプ実装を行う.XMP-dev は,XMP が本来提供している分散メモリノードへのデータと処理の分割・通信の機能に加え,各ノードでの処理の一部を GPU にオフローディングをすることが可能である.しかし,現在の実行モデルでは GPU にオフロードされた部分はすべて GPU により実行され,CPU との協調計算やワークシェアリングを行うことができない.本研究では,StarPU をバックエンドスケジューラとして用い,計算をタスクという単位で GPU や CPU へスケジューリングをすることで,GPU / CPU のワークシェアリングを可能とする.本稿では,現在開発中の XMP-dev/StarPU のプロトタイプコンパイラと同等の動作をするハンドコンパイルしたコードを用いて重力 N 体問題について評価を行う.結果として,GPU/CPU ワークシェアリングは機能しているが性能向上は十分ではなく,大きな要因は GPU と CPU の性能差に対応する十分な問題サイズを与えることが難しいこと,また,これを改善するために何らかの負荷バランス機能が必要であることがわかった.
著者
住元 真司 稲田 由江 三輪 英樹 三吉 郁夫
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-172, no.6, pp.1-6, 2019-12-11

本稿では,Arm SVE プロセッサである A64FX 上で可変ベクトル長バイナリを用いた著名 HPC ベンチマークプログラムの評価について報告する.A64FX は Arm SVE アーキテクチャに対応しているため実行時に SIMD ベクトル長を変更できる上,独自にメモリバンド幅も変更可能である.これらの機能を用いて著名ベンチマークの実行特性を評価する.
著者
中村 晃一 野瀬 貴史 稲葉 真理 平木 敬
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.63, pp.1-10, 2011-07-20

高性能計算分野では他の分野では使われる事の少なくなってきた Fortran・C 言語が使われ続けている.これらの言語はその生産性の低さと並列計算機向けの最適化の困難さが問題であり,高級なプログラミング言語を使用可能とする事は今後の重要な研究課題である.その様な目的の研究では並列構文を備えた専用の言語の研究・静的型付けの関数型言語の研究が主流であるが,これらが計算科学者にとって使い易いものであるとは言い難い.我々は Ruby を用いて高性能計算を行う試みを行っている.Ruby はその記述の容易さ・高機能さから広く使われており,本言語に高性能計算に使用可能な性能を与える事の恩恵は大きい.本稿では我々の試みの第一歩として,Ruby の為の型解析手法の提案を行う.動的言語である Ruby は静的言語に比べ解析が困難であると考えられているが,部分評価手法と抽象解釈手法を組み合わせることにより十分な精度での解析を行う事が可能である.また,我々は開発した解析手法に基づいて,Ruby の実行前最適化コンパイラ HPC Ruby を開発した.本稿時点では単一プロセッサ向けの基本的な最適化を実装している.NAS Parallel Benchmark を用いた性能評価では最新の Ruby 処理系と比べ 100 倍以上の高速化を達成し,C 言語の性能の約 90% を実現する事が出来た.Computational scientists have been using Fortran and C which are being used less than before in other fields. Because these languages have low productivity and optimization of them for massively parallel computers is difficult, it is important to make high performance computation using high-level languages possible. Although, for this purpose, study of dedicated parallel languages and study of statically-typed functional languages are mainstream, these languages are not easy to use for computational scientists. We have been studying high performance computation with Ruby. Giving high performance to Ruby brings significant benefits since Ruby is widely used because of its rich functionality and flexibly. This paper proposes a versatile method of static type analysis that is sufficiently efficient for Ruby. It combines partial evaluation framework and abstract interpretation framework to make analysis of dynamic language possible. We have implemented an ahead-of-time optimizing compiler, HPC Ruby, which performs classical optimization techniques based on the analysis targeting single core processors. HPC Ruby has achieved hundred times of speed-up against to latest Ruby interpreter in experimentation with Nas Parallel Benchmarks. Its performance has reached almost 90% of performance of C.
著者
椋木 大地 今村 俊幸
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.26, pp.1-6, 2014-12-02

NVIDIA が 2014 年にリリースした Maxwell アーキテクチャの GM107・GM204 コア搭載 GPU は,浮動小数点演算の理論ピーク演算性能比が倍精度:単精度 =1:32 である.このような環境ではソフトウェアで実装した疑似倍精度演算を用いた方が,倍精度の計算を高速に行える可能性がある.本稿では GM204 コアを搭載する GeForce GTX 980 を対象に,単精度型を 2 個連結して倍精度型を表現し,単精度演算で疑似的な倍精度演算を実現する double-float 演算 (DF 演算) を用いて,倍精度行列積を計算する BLAS ルーチンである DGEMM を実装した.その結果,ハードウェアの倍精度演算による通常の DGEMM と比べて,DF 演算を用いた DGEMM は約 2 倍の性能が得られた.
著者
住元真司 安島雄一郎 佐賀一繁 野瀬貴史 三浦健一 南里豪志
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014-HPC-143, no.8, pp.1-7, 2014-02-24

エクサスケールシステムでは、極限までの通信遅延の削減を省メモリに実現する必要がある。本論文では、エクサスケール通信をめざして開発中の ACP スタックの設計についての設計方針と ACP スタックの概要について述べる。
著者
堀内 美希 田浦 健次朗
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.38, pp.1-7, 2011-07-20

本研究の目的は,データ集約的な並列計算を行う際に重要な役割を担う,分散ファイルシステムの性能を,高遅延広帯域環境において向上させることである.現在の分散ファイルシステムは,高遅延環境で動作させると遅延の影響を受け,データ転送の際に広帯域を活かしきれていない場合がある.これを改善するため,本研究では積極的なデータプリフェッチ等により帯域を有効利用する分散ファイルシステム,Mogami の提案・実装・評価を行い,高遅延環境において,広帯域が達成できていることを確認した.これにより,複数拠点にまたがる高遅延環境を含む分散環境でデータ解析を行う場合の性能向上が期待される.This paper describes a distributed file system that utilizes wide bandwidth in high latency environments. Distributed file systems have been used as a way to share data for data intensive calculation. Existing distributed file systems, however, may fail to exploit the wide bandwidth due to high latency in the wide-area networks. To address this problem, we proposed and evaluated Mogami, a distributed file system that utilizes wide bandwidth even in high latency environment by aggressive data prefetching. In the evaluation we showed Mogami could achieve enough wide bandwidth to accelerate the data analyses in high-latency distributed environment.
著者
芹沢 和洋 建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-170, no.9, pp.1-12, 2019-07-17

深層ニューラルネットワークに使用される訓練データの規模は年々増加しており,深層ニューラルネットワークの訓練処理において訓練データの read I/O は無視できないボトルネックになりつつある.ノードローカルストレージとして搭載された SSD などの I/O が高速なストレージデバイスを使用することで read I/O の高速化は可能であるが,HPC クラスタにおいては毎回訓練データセットのファイルコピーが毎回必要であるという課題がある.また,HPC クラスタの計算ノードからネットワークを経由してアクセス可能な外部ストレージは訓練データセットをファイルコピーせずに訓練処理を開始できるが,SSD ほどのバンド幅は見込めない.本研究では,ノードローカルストレージと外部ストレージを組み合わせて使用することで事前に訓練データセットのコピーをせずに read I/O を高速化する手法を提案する.提案手法を機械学習フレームワークである Chainer に実装し,Chainer が提供する並列に訓練データを read する機能をベースラインとして,read I/O 性能を自作したベンチマークによって比較したところ,Lustre に訓練データを配置した場合のベースラインよりも,より少ないプロセス数を使用して最大で約 20% 高い read I/O 性能を達成できることを示した.データ並列訓練における 10 epoch の訓練時間の比較では,訓練データセットのファイルコピーに要する時間を考慮するとベースラインと SSD の組み合わせよりも訓練処理時間を短縮できることを示した.一方で,データ並列訓練においては read I/O ではなく AllReduce による処理時間が律速するため,ストレージ間の I/O 性能が処理時間に反映されにくいという,データ並列訓練の所要時間における特性を明らかにした.
著者
荒井 勇亮 佐藤 功人 滝沢 寛之 小林 広明
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2010-HPC-124, no.11, pp.1-7, 2010-02-15

近年,従来の CUDA に加えて,GPGPU プログラミングのための新たな標準プログラミング環境として OpenCL が利用可能となった.本論文では,CUDA と OpenCL のプログラムの実行性能差を定量的に評価する.まず,ほぼ同等の処理を行う CUDA と OpenCL のプログラムを実装し,性能を比較する.次に,その性能差の主要因を調査し,CUDA コンパイラではサポートされているいくつかのコンパイラ最適化手法が,現在の OpenCL コンパイラではサポートされていないことを明らかにする.最後に,OpenCL コンパイラで生成されるコードを手動で最適化することによって CUDA と同等の性能を達成できた結果から,今後の OpenCL コンパイラの最適化機能が強化されることにより,CUDA コードを OpenCL に単純変換するだけでも,CUDA と同等の性能を達成できる可能性が示された.
著者
石田 翔太郎 須田 礼仁
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-152, no.5, pp.1-18, 2015-12-09

計算機上で整数一様乱数を生成する方法については,これまで多くの論文が発表されてきた.一方で,浮動小数点数一様乱数を生成する方法 (または整数一様乱数から浮動小数点数一様乱数への変換法) については,多くの場面で整数一様乱数を定数で割る方法 (rand()/232など) が用いられてきた.しかしながら,この方法では特定の形式の浮動小数点数しか生成されず,ほとんどの浮動小数点数は生成されない.これに対して,Moler は [2-53,1-2-53] の範囲にある全ての浮動小数点数を生成可能な一様乱数生成器を提案し,その後 Thoma により,その範囲は (0,1) にまで拡張された.しかしながら,Thoma により提案された手法は,浮動小数点数の丸めモードによっては,隣り合う浮動小数点数の出現確率が 3 倍程度異なる箇所が生じるといった,不自然な挙動を取ることが実験的及び理論的な検証から分かった.そこで,本論文はこの不自然な挙動を修正することを目的とした上で,まずは正しい浮動小数点数一様乱数生成器について議論し,続いてそのような生成器を提案すると共にその正当性を示し,最後に,提案された生成器の性能を実験により示した.
著者
椋木 大地 今村 俊幸
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014-HPC-147, no.26, pp.1-6, 2014-12-02

NVIDIA が 2014 年にリリースした Maxwell アーキテクチャの GM107・GM204 コア搭載 GPU は,浮動小数点演算の理論ピーク演算性能比が倍精度:単精度 =1:32 である.このような環境ではソフトウェアで実装した疑似倍精度演算を用いた方が,倍精度の計算を高速に行える可能性がある.本稿では GM204 コアを搭載する GeForce GTX 980 を対象に,単精度型を 2 個連結して倍精度型を表現し,単精度演算で疑似的な倍精度演算を実現する double-float 演算 (DF 演算) を用いて,倍精度行列積を計算する BLAS ルーチンである DGEMM を実装した.その結果,ハードウェアの倍精度演算による通常の DGEMM と比べて,DF 演算を用いた DGEMM は約 2 倍の性能が得られた.
著者
一場 利幸 津金 佳祐 新井 正樹 田原 司睦
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-168, no.17, pp.1-5, 2019-02-26

近年,HPC 用途の ARM プロセッサが開発されており,注目が集まっている.そのため,AArch64 をターゲットとしたコンパイラの最適化機能の重要性が増している.しかし,コンパイラ基盤 LLVM の AArch64 向け最適化は,GCC に比べて不十分であることが報告されている.具体的な例の 1 つとして,LLVM は,GCC に比べて多くのスピルコードを挿入する.LLVM が生成したコードを分析すると,空いているレジスタがあるにも関わらず,スピルコードが挿入される場合があった.本研究では,LLVM で挿入される不要なスピルコードについて述べ,それらを削減する方法を提案する.これは,従来通りに LLVM のレジスタ割付けを行った後に,その結果を変更してスピルコードを削減する方法である.2 パターンの不要なスピルコードに対して,提案方法を NPB に適用した結果,パターン 1 については平均 1.25%,パターン 2 については平均 2.87% のスピルコードを削減できた.
著者
Mateusz Bysiek Mohamed Wahib Aleksandr Drozd Satoshi Matsuoka
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2018-HPC-165, no.38, pp.1-7, 2018-07-23

We present a method for accelerating the execution of Python programs. We rely on just-in-time automatic code translation and compilation with Python itself being used as a high-level intermediate representation. We also employ performance-oriented code transformations and compiler directives to achieve high performance portability while enabling end users to keep their codebase in pure Python. To evaluate our method, we implement an open-source transpilation framework with an easy-to-use interface that achieves performance better than state-of-the-art methods for accelerating Python.
著者
井上文雄 宇野篤也 塚本俊之 松下聡 末安史親 池田直樹 肥田元 庄司文由
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014-HPC-146, no.4, pp.1-5, 2014-09-25

「京」 では現在,通常は小中規模のジョブ (36,864 ノード以下) を実行し,大規模ジョブ (36,865~82,944 ノード) は特定の期間 (以下,大規模ジョブ実行期間) に実行するという運用を行っている.通常の運用では 「京」 の消費電力は契約電力内に収まっているが,大規模ジョブ実行期間において契約電力を超過する事例が発生した.頻繁な契約電力の超過は電力契約の見直し等につながり,運用に及ぼす影響は無視できないものである.そこで,これを回避するために,投入予定の大規模ジョブを消費電力の観点で事前に審査することにした.すなわち,過去の動作実績等から推測した大規模ジョブ実行時の消費電力が運用上の上限を超えないことが確認されたジョブのみ投入を許可することにした.加えて,消費電力を 24 時間監視できる体制の構築,及び最大電力量を超過した際のジョブ停止プロセスの整備など運用方法の変更を実施した.本稿では,これらの対策と今後の取り組みについて報告する.
著者
平櫛貴章 高橋大介
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013, no.12, pp.1-6, 2013-05-22

近年,様々な分野で巨大なグラフが出現しており,そのようなグラフを高速に処理する方法が必要となりつつある.また,GPU を搭載したクラスタシステムの台頭も著しく,Top500 ランキングにおいても複数の GPU クラスタが上位にランクインしている.しかし,LINPACK ベンチマークで示された性能に対して GPU クラスタのグラフ処理能力はあまり高いものとなっておらず,アルゴリズムの改善によるさらなる高速化が必要であると考えられる.そこで,本稿では GPU クラスタにおいて大規模なグラフの幅優先探索を高速化する手法を提案し,実装および評価を行った.その結果,GPU を利用することで CPU のみを用いた場合に比べてより高速に幅優先探索を行うことができることが分かった.
著者
遠藤 敏夫 額田 彰 松岡 聡
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.11, pp.1-6, 2010-12-09

Intel プロセッサに加え NVIDIA GPU を備え,2010 年 11 月に稼働開始したヘテロ型スパコンである TSUBAME 2.0 における Linpack ベンチマークの実行について報告する.本システムは 2CPU と 3GPU を備えた計算ノードを約 1400 台持ち,それらはフルバイセクションのファットツリー構造を持つ QDR InfiniBand ネットワークにより接続される.理論演算性能は TSUBAME 1.0 の約 30 倍となる 2.4PFlops であり,それを TSUBAME 1.0 とほぼ同じ規模の電力で実現している.Linpack ベンチマークのコード改良およびチューニングを GPU を用いた大規模システムの特性に合わせ行い,実行速度として 1.192PFlops を実現した.この結果は日本のスパコンとしては初めて PFlops を超えるものであり,Top500 スパコンランキングに 4 位にランクされた.We report Linpack benchmark results on the TSUBAME 2.0 supercomputer, a large scale heterogenous system with Intel processors and NVIDIA GPUs, operation of which has started in November 2010. The main part of this system consists of about 1400 compute nodes, each of which is equipped with two CPUs and three GPUs. The nodes are connected via full bisection fat tree network of QDR InfiniBand. The theoretical peak performance reaches 2.4PFlops, 30 times larger than that of the predesessor TSUBAME 1.0, while its power consumption is similar to TSUBAME 1.0. We conducted improvement and tuning of Linpack benchmark considering characteristics of large scale systems with GPUs, and achieved Linpack performance of 1.192PFlops. This is the first result that exceeds 1PFlops in Japan, and ranked as 4th in the latest Top500 supercomputer ranking.
著者
島田 明男 バリ ゲローフィ 堀 敦史 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-135, no.3, pp.1-8, 2012-07-25

エクサスケールのスーパーコンピュータ実現に向けてメニーコアアーキテクチャが注目されている.メニーコア環境では,ノード内の計算処理の並列化が重要となる.本研究では,マルチプロセス型並列アプリケーションにおいて,低コストなプロセス間通信を実現するためのプロセスモデルとして,Partitioned Virtual Address Space (PVAS) を提案する.PVAS を用いることで,プロセス間通信で発生するコストを低減し,従来よりも効率的なノード内並列化を実現することができる.PVAS のプロセス間通信を利用する MPI 通信を実装し,評価したところ,通信のレイテンシとスループットを大幅に改善可能であることが分かり,本提案の有効性を確認することができた.
著者
坂本真貴人 藤井昭宏 田中輝雄
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013-HPC-138, no.6, pp.1-7, 2013-02-14

行列行列積を計算する DGEMM の性能は,さまざまな科学技術計算において重要である.DGEMM の高速化の手法の 1 つに Strassen のアルゴリズムがある.これは再帰的アルゴリズムであり,適用する回数を増やすことで計算量を O(N3) から O(Nlog7) まで削減することができる.しかし,計算機や行列サイズに合わせた適切な回数を選択しないと高速化できない.本研究では,Strassen のアルゴリズムを,自動チューニング機能付きの線形代数ライブラリである ATLAS をベースにして組み合わせた.そして,最適な適用回数を自動的に選択する機能をもつ行列行列積計算ライブラリを試作し,計算性能の評価を行った.実験の結果,さまざまな行列サイズで ATLAS 単体より高い性能を引き出すことができた.また,通常の方法に比べて誤差がどの程度になるか確認した.
著者
泊 久信 平木 敬
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.45, pp.1-7, 2011-07-20

計算機が高性能になったことにより,より大きな問題を解くことができるようになった.入力が計算結果として出力されるまでに演算器を通る回数も,問題の規模と反復回数に応じて大きくなった.計算アルゴリズムの中には,演算器を通る回数が増えると誤差が蓄積していくものがある.このようなアルゴリズムを,より高性能な計算機を用い大規模な問題に対して適用するためには,より高精度な浮動小数点演算が必要である.ところが,高精度な浮動小数点数を扱うハードウェアは市販品としては少なく,結果としてソフトウェア実装を用いるのが一般的であった.ソフトウェアによる実装は幅広い環境で動作させることができる利点がある一方,性能を出しにくいという欠点がある.性能が出ない場合,そもそも高精度な浮動小数点数を扱う必要性は低い.本研究では,IEEE 754 規格を拡張して,8 倍精度 (256-bit) 浮動小数点数を定義した.評価では,POWER7 マシンでの倍精度の演算と,8 倍精度演算の 64 ビットPowerPC アセンブリでの実装との性能を比較し,8 倍精度が倍精度の 1/44 程度の性能の劣化になることを確認した.ハードウェア実装として,CPU の FSB に FPGA が結合された,Convey HC-1 を用いて,高性能な演算器を実装した.この FPGA ベースの実装を用いた場合,POWER7 の 8 コアのシステムに比べ,約 4.5 倍の 8 倍精度浮動小数点処理性能を実現した.The faster the processor becomes, the larger grows the size of the problem that the processor is capable of solving. The number of operations that are applied to input data is subject to the size and the number of iterations. There are algorithms where the error accumulates as the size or the number of iterations increases. To apply these algorithms to the larger set of problems that are solved on the next-generation computers, a higher-precision floating point format is required. Notwithstanding the need, there are little support for arithmetic on floating point numbers of quadruple or more precisions. When they really needed it they tend to implement them using software. Using software to process higher-precision floating point number benefits from portability, but at the grave cost of the performance. When the performance is limited, we often do not need higher precision floating point numbers in the first place. We propose an extension to the IEEE 754 floating point number formats to define a octuple-precision (256-bit) floating point numbers. We compared the performance of our octuple precision implementation to the double-precision operations on IBM POWER7. On POWER7, octuple precision operations take about 44 times more processing time than double-precision counterparts. We implemented FPGA-based arithmetic unit for the data format on Convey HC-1 system, where FPGA chips are connected to the host using the front side bus. On this system, octuple precision operations are 4.5 times faster than those on the 8-core POWER7 system.
著者
宇野篤也 庄司文由 横川三津夫
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012, no.22, pp.1-6, 2012-09-26

スーパーコンピュータ 「京」 や地球シミュレータなどの大規模システムでは,計算ノードのファイル I/O 性能を確保するために 2 階層のファイルシステムを採用しており,ジョブ実行の一連の作業としてファイルシステム間でファイルを移動させるファイルステージング機構をジョブスケジューリングに組み込んでいる.本稿では,ファイルステージングがジョブスケジューリングに与える影響等についてソフトウェアジョブシミュレータを用いて評価したので報告する.