著者
鷹津冬将 平賀弘平 建部修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014-HPC-143, no.1, pp.1-7, 2014-02-24

膨大なデータを管理するために分散ファイルシステムが注目されている.分散ファイルシステムのストレージノードでは一般にオブジェクトストレージを使うことによりデータをデバイス上で管理する.ハードディスクよりも高速で汎用的な不揮発性デバイスが登場した今日,オブジェクトストレージにおいてもこのような不揮発性デバイスに適した設計が求められている.本稿では,これまでに開発してきたオブジェクトストレージにおける課題と,アクセス性能を高めたオブジェクトストレージの設計と実装,評価について述べる.この評価においては,提案するオブジェクトストレージがオブジェクトの書き込みだけでなく読み込みにおいても高いアクセス性能があることを示した.
著者
Luo Cheng Reiji Suda
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011-HPC-130, no.19, pp.1-9, 2011-07-20

Even with a powerful hardware in parallel execution, it is still difficult to improve the application performance without realizing the performance bottlenecks of parallel programs on GPU architectures. To help programmers have a better insight into the performance bottlenecks of parallel applications on GPU architectures, we propose an analytical model that estimates the execution time of massively parallel programs which take the instruction-level and thread-level parallelism into consideration. Our model contains two components: memory sub-model and computation sub-model. The memory sub-model is estimating the cost of memory instructions by considering the number of active threads and GPU memory bandwidth. Correspondingly, the computation sub-model is estimating the cost of computation instructions by considering the number of active threads and the application's arithmetic intensity. We use ocelot1) to analysis PTX codes to obtain several input parameters for the two sub-models such as the memory transaction number and data size. Basing on the two submodels, the analytical model can estimates the cost of each instruction while considering instruction-level and thread-level parallelism, thereby estimating the overall execution time of an application. We compare the outcome from the model and the actual execution in GTX260; and the results show that the model can reach 90 percentage accuracy in average for the benchmarks we used.
著者
後藤隆志 武藤康平 山本英雄 平野智大 見神広紀 木村啓二 笠原博徳
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013, no.12, pp.1-7, 2013-12-09

本論文では,スマートフォンやタブレット等で広く用いられる Android において,従来マルチコアプロセッサ上での並列化が困難で,その高速化が望まれていた 2D 描画ライブラリ Skia を,OSCAR 自動並列化コンパイラにより,プロファイラ情報に基づいた自動並列化を行う手法を開発したのでその方法を説明する.OSCAR コンパイラは Parallelizable C により記述された逐次プログラムから様々な粒度で並列化解析を行い,自動的に並列化 C ソースを出力する.しかし,Skia は Android 内のライブラリであり,利用する描画命令ルーチンにより制御フローが大きく変化するため,最適な並列化解析を行うことが困難である.そこで,本論文では Skia のような制御フローがコンパイル時に特定できないプログラムに対し,Oprofile を用いて取得したプロファイル結果を OSCAR コンパイラにフィードバックすることで,並列化対象を特定の領域に絞り,高い性能向上が得られる手法を提案する.なお,並列化対象領域が Parallelizable C コードでない場合でも,解析結果により実行コストが大きい部分から Parallelizable C に変更し,チューニングを施すことで並列化が可能となる.本手法を,描画ベンチマークとして広く使われている 0xbench を NVIDIA Tegra3 チップ (ARM Cortex-A9 4 コア) を搭載した Nexus7 上で評価を行った.並列化 Skia の実行においては,並列化部分の速度向上を正確に評価するため, Android を core0 に割り当て,残り 3 コアを Skia が利用できる形とした.評価の結果として,DrawRect で従来の 1.91 倍である 43.57 [fps],DrawArc で 1.32 倍の 50.98[fps],DrawCircle2 では 1.5 倍の 50.77[fps] といずれも性能向上結果が得られた.
著者
津金 佳祐 中尾 昌広 李 珍泌 村井 均 佐藤 三久
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-155, no.29, pp.1-8, 2016-08-01

近年,高性能計算分野においてチップ内に多くのコアを搭載するメニーコアプロセッサを用いた大規模並列システムが登場している.そのようなシステムにおける並列化手法の一つとしてタスク並列が注目されており,本稿では,分散メモリ環境上での動的なタスク並列処理をより簡易な記述で実装可能とすべく PGAS 言語 XcalableMP(XMP) の拡張を行う.記述として tasklet 指示文を提案し,ノード内/外におけるタスク間の依存関係の記述による細粒度な同期や,通信と計算のオーバラップによる性能向上を目指す.タスク生成や制御は Argonne National Laboratory(ANL) により開発が進められている軽量スレッドライブラリである Argobots を用いる.現在は,実装対象である Omni XMP Compiler のランタイムのみの実装であるため,コード変換は手動で行う.提案手法の予備評価としてブロックコレスキー分解のコードを対象とし,性能・生産性の評価を行った.比較対象は,MPI+OpenMP による実装と INRIA によって開発が進められている StarPU による実装である.StarPU 実装との比較では一部優位な点が見られたが,MPI+OpenMP 実装との比較では最大で約 15%の性能低下が見られた.生産性の比較では,指示文による記述を採用したことによりベースコードから少ない変更で実装可能なことから,tasklet 指示文による記述の生産性の高さを示した.
著者
秋山 隼太 小路 真史 三宅 洋平 大村 善治 中島 浩
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.8, pp.1-11, 2010-02-15
参考文献数
6

本論文では,粒子・流体ハイブリッドプラズマシミュレーションの,負荷分散技法 OhHelp を用いた並列化について述べる.すでに OhHelp を適用して良好な結果が得られている全粒子シミュレーションに比べ,ハイブリッドシミュレーションは電磁場の計算負荷が相対的に大きいため,計算と通信のバランスを大幅に見直した実装を行った.特に Cyclic Leapfrog 法による電磁場計算に関する,通信回数削減と計算量増加のトレードオフポイントを見出すことが可能な設計とした.また実用的なシミュレーションに不可欠な,スナップショットやダンプファイルの出力方式も検討し,並列 I/O を用いて並列性能と利便性の両立を図る設計・実装を行った.性能評価の結果,256 プロセスでの実行で 241-456 倍の台数効果が得られること,電磁場計算では計算量増加を抑えることが効果的であること,およびスナップショットと Weak/Strong Scalability との関係が明らかになった.This paper describes a parallel implementation of particle-fluid hybrid plasma simulation with our load balancing method OhHelp. In hybrid simulation, the cost to simulate the progress of electromagnetic field is more significant than that in full-particle simulation whose OhHelp'ed parallelization has already been proved efficient. Thus in this work we revisited the issue of the cost balance between computation and communication, especially for Cyclic Leapfrog method and the trade-off between reducing the number of communications and increasing computational amount. We also designed and implemented parallel-I/O for snapshot and dump, being essential for practical use of our simulator, to reconcile parallel performance and convenience of users. Our evaluation exhibited that the speedup with 256 process is 241- to 456-fold and that suppressing computational cost is the first priority in Cyclic Leapfrog. We also obtained valuable insights about the relationship between weak/strong scalability and snapshot frequency.
著者
安部 達也 平石 拓 三宅 洋平 岩下 武史 中島 浩
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.59, pp.1-8, 2011-07-20

分散制約充足問題を分散並列計算環境で解くにあたり,ジョブを処理の単位とする分散並列処理 (ジョブ並列) に特化したジョブ並列スクリプト言語 Xcrypt で処理を記述することにより,実際の分散並列計算環境であるところの,いわゆるスーパーコンピュータを利用する方法を紹介する.さらに,Xcrypt の遠隔ジョブ投入機構を利用することにより,制約が遠隔の計算機に分散された状態からの制約充足問題,つまり,真の意味での分散制約充足問題を簡便に取り扱うことができることを示す.We introduce a method of parallel executions based on the job unit (job-level parallel executions) for solving distributed constraint satisfaction problems (DCSPs) in parallel and distributed computation environments, the so-called today's many supercomputers. Throughout introducing the method we use the job-level parallel script language Xcrypt, specific to job-level parallel executions. We also show that Xcrypt provides us with a feature of submitting remotely jobs for solving realistic DCSPs (under the circumstances that constraints are truely distributed in separate computers).
著者
塩谷 丈史 成見 哲
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2015, no.18, pp.1-6, 2015-02-23

近年のプロセッサには動画デコードや暗号化回路など頻繁に利用される処理向けに専用回路がハードウェアで組み込まれていることも多い.しかし,すべての処理に対して専用回路を静的に用意することは現実的ではない.本研究では,モバイル端末での利用を前提として,FPGA を用いた Android タブレットを試作し,いくつかの数値演算専用アプリを実装した.Android アプリから FPGA 資源を Partial Reconfiguration (動的部分再構成) により利用するための API を実装し,CPU と演算性能を比較した.本研究で作成したアプリは,(1) アルゴン粒子の 2 次元分子動力学シミュレーション,(2) 大きなデータに対する固定ビットパターンのマッチング,(3) 外部 IO を使用した LED 発光回路の 3 つである.(1) の回路では CPU による処理速度に対して 340倍,(2) の回路では 180 倍の高速化が行えた.また,(3) の回路により Android アプリから外付けハードウェアを簡単に操作できることが示せた.
著者
黒松 信行 小林 健一 Viel Emeric 浦 晃 上田 晴康
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-150, no.18, pp.1-7, 2015-07-28

機械学習においては,処理するデータ量,得られる精度,実行に要する時間の制約を満たす中で,逐次・並列分散の観点も含めたライブラリやアルゴリズム,パラメータの膨大な組み合わせの中から最適なものを選択することは困難であった.そこで,許容できる実行時間と入力データを与えるだけで最も高い精度を得ることを目的として,条件を変えながら何度も機械学習を実行することで最適な選択肢を自動的に選ぶプラットフォーム wizz を Apache Spark 上に構築した.wizz は並列処理向けの Apache Spark の MLlib と逐次実行向けの R スクリプトおよび R スクリプトの分散実行によるアンサンブル学習機能を提供しており,並列処理ライブラリと逐次処理ライブラリを同時に多数実行することができる.
著者
内山 学 ファム バン フック 千葉 修一 井上 義昭 浅見 暁
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-151, no.20, pp.1-6, 2015-09-23

本報告は流体コード OpenFOAM を基にして,MPI 並列と Thread 並列を用いた Hybrid 並列の検討を行う.OpenFOAM は Thread 並列には対応していないため,CG 法と BiCG 法を対象に Thread 並列化を可能とする行列のオーダリング方法を示すとともに,計算効率を向上させる行列の格納方法を示す.更に,全体通信回数の少ないアルゴリズムを採用し,そのアルゴリズムの特徴を生かして行列演算の効率化を行う.CG 法と BiCG 法以外の部分に対しても Thread 並列化の方法を示し,最後に,Hybrid 並列コードと MPI 並列コード,元コードを 「京」 コンピュータ上で比較する.
著者
カオタン 和田康孝 近藤正章 本多弘樹
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013-HPC-141, no.20, pp.1-8, 2013-09-23

将来の HPC システムでは,消費電力がシステム設計や実効性能を制約する最大の要因の一つになると考えられている.運用時のピーク消費電力が電力制約を超えないことを保証する従来の設計思想では,アプリケーションを今後の大規模システムに対してスケールさせることは難しいとの認識のもと,我々は,ピーク消費電力が制約を超過することを積極的に許容し,適切に電力性能ノブを調整しつつ限られた電力資源を有効に使用して高い実効性能を得る電力制約適応型システムと,その実現に必要となる電力マネージメントフレームワークの研究開発を実施している.このような電力制約適応型システムにおいては,アプリケーション実行時の電力消費状況を観測し,また柔軟に電力制御を行える環境が必須となる.近年の Intel 社のプロセッサには RAPL (Running Average Power Limit) と呼ばれるプロセッサと DRAM の消費電力を観測・制御するインタフェースが備えられている.本稿ではこの RAPL を用い,アプリケーションを実行させた際の消費電力計測と制御を行い,HPC システムに用いられる計算機の電力計測特性について調査する.また,ノード全体の電力の柔軟な計測を可能とするべく,RAPL の計測値を用いてノード全体の電力のモデリングを行う.実験の結果,RAPL により高い精度でプロセッサや DRAM,またノードの消費電力を観測できることがわかった.
著者
ファム バン フック 井上 義昭 浅見 暁 内山 学 千葉 修一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-151, no.19, pp.1-9, 2015-09-23

本研究では C++ オープンソース OpenFOAM を対象として,利用しているデータ交換形態,C++ テンプレートおよび MPI プラットフォームの特徴とその課題を述べた.また,「京」 コンピュータの Tofu 高機能バリア通信機能を活用して,データ型に合わせたテンプレートの追加による全体実行時間の軽減を確認した.また,OpenFOAM 特有の PstreamBuffer 全体データ交換形態を必要最小限の隣接データ交換形態に改良し,通信バッファサイズおよび通信時間が減少した.これらにより大規模並列処理を可能にして,アプリケーション全体の実行効率が大幅に向上した.
著者
滝澤真一朗 松田元彦 丸山直也
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.16, pp.1-9, 2014-09-25

計算科学アプリケーションには,そのワークフローを MapReduce モデルで容易に記述できるものも多く,MapReduce を採用することにより,実装の容易化,並列実行の自動化等の恩恵を受けられる.一方,計算科学アプリケーションは大規模並列システムで実行されるため,そのワークフローを実行する MapReduce 処理系にも高いスケーラビリティや,並列ファイルシステムに対応した高速 IO の実現が求められる.本研究では MapReduce 実行中の並列ファイルシステムへのアクセスの局所性を高めつつ,スケーラブルに動的負荷分散を行う処理系の実現を目指す.本稿では,並列ファイルシステム上のファイルの位置に基づく,該当ファイルを入力とするタスクを静的に割り振る手法を提案し,大規模並列システム向け MapReduce 処理系 K MapReduce に,京コンピュータを対象システムとして実装した.ファイル読み込み性能の評価を行った結果,N ファイルを N ノードが読み込む評価において,ランダムにファイルをノードに対応させた場合に対して,本提案は平均して 9 %の性能向上を達成した.また,1 ファイルを N ノードが読み込む評価においては,本提案は平均して 4.5 倍の性能向上となった.
著者
小川 宏高 中田 秀基 工藤 知宏
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013, no.15, pp.1-6, 2013-05-22

我々は,オンライン機械学習向け分散処理フレームワーク Jubatus を基盤として用いた,大量センサデータに対するリアルタイムかつ複雑な解析を実現する処理エンジンの構築を目指している.特にさまざまな応用分野へのシステムの適用を想定した場合,多種多様なリアルタイムデータを処理対象として取り扱えることが重要である.そのなかでも映像や音声に代表されるメディアデータは,汎用性が高く,実世界へのセンサー装置の浸透が顕著に進んでおり,内包している情報量の多さから高い利用価値が期待される.本稿では,Jubatus を基盤として実際に多数の動画像を対象としたリアルタイム異常値検出を行うシステムを構築し,その構成概要を示した.また,性能特性の調査を行い,その結果を示した.その結果,学習データに基づいた異常値検知はリアルタイムに実現できたが,学習フェーズは学習データの増加とともにリアルタイムに処理することが困難になった.レスポンス時間についてより詳細な調査を行い,LSH から取得した擬似近傍点の個数が多い場合に著しい性能劣化が見られることが判明した.We aim to build a real-time and complex data analisys engine for large-scale sensor data, based on a distributed online machine-learing framework, Jubatus. In order to adapt this engine to various application areas, it is crucial that we can handle a wide variety of real-time data. Especially, multimedia data, including video and audio, are general-purpose and feature rich, and their sensors have already been penerated into the real world deeply and widely. Hence, we expect that they are quite valuable for various applications. In this paper, we realize an actual system that provides real-time anomaly detection for multiple video streams and describe the overview of our system. And, we also investigate the performance characteristics of the system. As a result, anomaly dectection based on learnt video frames can be performed at real-time, but learning phase can hardly be processed at real-time according to the growth of learnt video frames. We conduct more detailed investigation into the response time of the system, and clarify that peformance degradation is observed mostly when the amount of pseudo-neighbors extracted from LSH is relatively large.
著者
Chawanat Nakasan Kohei Ichikawa Putchong Uthayopas
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.30, pp.1-6, 2014-07-21

This paper discusses the use of Multipath TCP (MPTCP), which is a TCP extension that allows multiple TCP flows to be associated to one application-layer logical connection, coupled with OpenFlow traffic engineering in a single stack to provide a comprehensive multipathing solution, with OpenFlow providing optimal path sets while MPTCP utilizing them. This design should be able to maximize bandwidth and network path utilization by allowing hosts to take advantage of presently-unused paths. Design of the testbed, also to be used by our research group in future projects, is also discussed in this paper. Finally, we discuss evaluation of network performance when using multiple paths, as well as concerns raised by our work. In summary, our system functioned as expected and provided feasible performance in small virtual network. This design should be scalable to benefit distributed file storage systems, data-intensive services, or any high-performance computing systems.This paper discusses the use of Multipath TCP (MPTCP), which is a TCP extension that allows multiple TCP flows to be associated to one application-layer logical connection, coupled with OpenFlow traffic engineering in a single stack to provide a comprehensive multipathing solution, with OpenFlow providing optimal path sets while MPTCP utilizing them. This design should be able to maximize bandwidth and network path utilization by allowing hosts to take advantage of presently-unused paths. Design of the testbed, also to be used by our research group in future projects, is also discussed in this paper. Finally, we discuss evaluation of network performance when using multiple paths, as well as concerns raised by our work. In summary, our system functioned as expected and provided feasible performance in small virtual network. This design should be scalable to benefit distributed file storage systems, data-intensive services, or any high-performance computing systems.
著者
森下 浩二 横川 三津夫 宇野 篤也 石原 卓 金田 行雄
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.17, pp.1-5, 2014-12-02

現在日本最速のスーパーコンピュータである 「京」 を用いて,一様等方性乱流の超大規模直接数値シミュレーション (DNS) を実現するために,地球シミュレータ向けに開発された,フーリエ・スペクトル法に基づく一様等方性乱流の DNS コードの 「京」 への移植,及び最適化を行った.移植の際には,従来の 1 次元分割によるデータ分散手法から,より効率的な All-to-all 通信が可能であると考えられる 2 次元分割による手法へと変更を行った.その結果,「京」 の 192×128 ノードを用いて最大格子点数 122883 の超大規模 DNS の実現に成功した.これはプロダクトランとしては世界最大の一様等方性乱流の DNS である.ピーク性能比として,格子点数 61443,81923,122883 の DNS でそれぞれ 3.84%,3.14%,2.24% の実効性能が得られた.また,コードの更なる高効率化のために,乱流 DNS 特有のアルゴリズムに対する最適化を試み,その性能評価を行った.
著者
南 一生 井上 俊介 千葉 修一 横川 三津夫
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.30, pp.1-9, 2014-12-02

プログラムの実行性能限界を見積もるために,プロセッサのピーク性能,メモリバンド幅,Operational Intensity(Flop/Byte) をパラメータとしたルーフラインモデルが提案されている.ルーフラインモデルは,メモリネックのプログラムの場合に見積り性能と実測性能が良く一致するが,キャッシュアクセスが増えてくると,見積り性能と実測性能が乖離してくる.本報告では,キャッシュアクセスが増大するカーネルプログラムに対し,コーディングに基づく実行性能の見積もり方法を提案する.また,いくつかのカーネルループに対し,スーパーコンピュータ 「京」 上の実行性能の評価を行った結果,本方法が実効性能見積もりに適用できることを明らかにした.The Roofline models have been proposed in order to estimate the marginal performance of programs based on some features of computer systems such as peak performance, memory bandwidth, and operational intensity. The estimated performance by the model is in good agreement with the measured performance in the case that programs access memory devices directly. However, a difference between the estimated performance and the measured performance appears in the case that cache accesses of the program increase. In this paper, we extended the roofline model to a new one which can apply to a performance estimation of programs in which many cache accesses occur. It is shown that the new model can estimate the sustained performance of various kernel loops on the K computer by comparing with measured performance.
著者
中島 研吾 佐藤 正樹 古村 孝志 奥田 洋司 岩下 武史 阪口 秀
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011-HPC-130, no.44, pp.1-9, 2011-07-20

ヘテロジニアスなアーキテクチャによる計算ノードを有するポストペタスケールシステムの処理能力を充分に引き出す科学技術アプリケーションの効率的な開発,安定な実行に資する 「自動チューニング機構を有するアプリケーション開発・実行環境:ppOpen-HPC」 を開発する.対象離散化手法を有限要素法,差分法,有限体積法,境界要素法,個別要素法に限定し,各手法の特性に基づきハードウェアに依存しない共通インタフェースを有するアプリケーション開発用ライブラリ群,耐故障機能を含む実行環境を提供する.自動チューニング技術の導入により,様々な環境下における最適化ライブラリ,耐故障機能を持つ最適化アプリケーションの自動生成を目指す.本研究は 2014 年度に東京大学情報基盤センターに導入予定の数十ペタフロップス級システムをターゲットとし,同システム上で実アプリケーションによって検証,改良し,一般に公開する.
著者
竹房あつ子 中田秀基 池上努 田中良夫
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013, no.20, pp.1-6, 2013-07-24

階層型タスク並列処理は,タスクの再実行や冗長実行により耐障害性を備えたプログラムが設計できるため,ポストペタスケール高性能計算における有望なプログラミングモデルの 1 つと考えられている.我々は,耐障害性を備えたアプリケーションプログラムの開発を支援にする耐障害アプリケーションフレームワーク Falanx を提案している.このようなアプリケーションフレームワークは,計算に必要となるデータを障害から保全するデータストア機構と計算ノードの健全性を監視しつつ適切に計算を実行する資源管理機構からなる.これらを,ポストペタスケール計算機環境においてスケーラブルでかつ,それら自身が耐故障性を持つように設計・実装する必要がある.本研究では,耐障害アプリケーションフレームワークのポストペタスケール計算機環境での性能特性を検証して技術的課題を明らかにすることを目的とし,試験実装となるパーシステントストレージを利用した高可用分散協調スケジューラを設計・開発する.本スケジューラは既に実装を進めている資源管理機構と新たに追加したデータストア機構で構成され,Apache ZooKeeper と Apache Cassandra を用いて実装することで耐障害性を実現する.本スケジューラを用いた予備実験から,処理中に計算ノードが落ちてしまった場合も,自動的にタスクが再実行されアプリケーションプログラムが継続実行できることを確認した.
著者
石黒 駿 村上 じゅん 大山 恵弘
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013, no.11, pp.1-8, 2013-05-22

OS ノイズは,高性能計算アプリケーションの性能低下の大きな要因の一つである.OS ノイズの実体は,割り込み処理などの OS カーネルによるサービスの実行や,メモリ管理デーモンなどの各種デーモンの実行である.これらの動作は,アプリケーションによる計算を中断させ,計算時間を増大させる.OS ノイズは,多くのプロセスやスレッドが頻繁に同期するアプリケーションで大きく性能を低下させる.本論文では,メモリページの回収処理に伴う OS ノイズに着目し,その OS ノイズによる影響を低減する手法を提案する.Linux のディスク I/O では,通常はファイルデータはメモリ上にキャッシュされる.大量のディスク I/O を行った結果,キャッシュ用のメモリが足りなくなると,OS は特別なカーネルスレッドを起動し,近い将来に利用されないと思われるページを回収させる.このカーネルスレッドが頻繁に動作すると,その OS ノイズによりアプリケーションの性能が低下する.提案手法は,大量のディスク I/O が行われている場合に,ページ回収のカーネルスレッドに先行して,さらに大きな単位でページを回収する.これによりページ回収の回数が減り,OS ノイズによる影響が小さくなる.我々は提案手法に基づくシステムを実装し,実験を行った.その結果,その OS ノイズによる性能低下をほぼなくすことに成功した.OS noises are one of the major causes of performance degradation in applications of high performance computing. OS noises are execution of services by the operating system kernel such as interrupt handling or execution of various daemons such as a memory management daemon. These execution interrupts the computation of an application and increases the execution time. OS noises significantly degrade the performance of an application in which many processes or threads frequently synchronize with each other. In this paper, we focus on a OS noise caused by reclamation of memory pages and propose a method of reducing the effect of the OS noise. The disk I/O of Linux usually caches file data on memory. When numerous disk I/O occur and the OS runs out of memory for caching file data, the OS activates a special kernel thread that reclaims memory pages that are unlikely to be used in the near future. If the kernel thread is frequently activated, the performance of an application is degraded due to its OS noise. The proposed method reclaims memory pages in advance of the kernel thread for page reclamation. It reclaims more pages than the kernel thread, and thus reducing the frequency of page reclamation and the effect of the OS noise. We implemented a system based on the proposed method and conducted an experiment. Results of the experiment showed that the proposed method could almost eliminate the performance degradation caused by the OS noise.
著者
齋藤 智之 石川 裕 Gerofi Balazs 三好 建正 大塚 成徳 富田 浩文 西澤 誠也 八代 尚
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.2, pp.1-6, 2014-02-24

実時間ゲリラ豪雨予測システムを実現するために,100 ケースの 30 秒アンサンブル気象シミュレーション結果と 30 秒毎の最新気象観測データを同化し,その結果から 30 分後の気象予測をする.将来の並列計算機において,5000 プロセスから構成される気象シミュレーションジョブと 5000 プロセスから構成されるデータ同化ジョブの間でデータ転送が行われると見積もっている.ファイル渡しによる非効率なデータ転送ではなく,ファイル I/O API を維持しながら 2 つのジョブのプロセス間で効率の良いデータ転送を提供する File I/O Arbitrator を提案する.We are designing and developing an innovative real-time severe weather forecasting system that updates 30 minute later severe weather conditions every 30 second. In this system, the results of 100 cases of 30 second ensemble numerical weather simulations and observational data obtained by modern weather equipment's are assimilated every 30 minute, and 30-second weather prediction is performed using the assimilated data. In a next generation supercomputer we assume, it is estimated that data are transferred between 100 case ensemble simulations running on 5000 processes and an assimilation job running on 5000 processes in order to meet required realtimeness in terms of computation. Shortening the execution time of simulations and assimilation, the execution time of transferring data via files becomes bottleneck. In this paper, efficient data transfer middleware called file I/O arbitrator is proposed in order to eliminate exchanging files.