著者
小田嶋哲哉 李珍泌 朴泰祐 佐藤三久 塙敏博 児玉祐悦 RaymondNamyst SamuelThibault OlivierAumage
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-135, no.9, pp.1-8, 2012-07-25

GPU クラスタ上でのプログラミングは,様々なプログラミングフレームワークが直交しており,複雑になってしまうことが多い.本研究では,XMP をアクセラレータを持つ並列計算機向けに拡張した言語仕様 XMP-dev の一実装として,GPU と CPU によるハイブリッドワークシェアリングを容易に行うことができる XMP-dev/StarPU を提案し,プロトタイプ実装を行う.XMP-dev は,XMP が本来提供している分散メモリノードへのデータと処理の分割・通信の機能に加え,各ノードでの処理の一部を GPU にオフローディングをすることが可能である.しかし,現在の実行モデルでは GPU にオフロードされた部分はすべて GPU により実行され,CPU との協調計算やワークシェアリングを行うことができない.本研究では,StarPU をバックエンドスケジューラとして用い,計算をタスクという単位で GPU や CPU へスケジューリングをすることで,GPU / CPU のワークシェアリングを可能とする.本稿では,現在開発中の XMP-dev/StarPU のプロトタイプコンパイラと同等の動作をするハンドコンパイルしたコードを用いて重力 N 体問題について評価を行う.結果として,GPU/CPU ワークシェアリングは機能しているが性能向上は十分ではなく,大きな要因は GPU と CPU の性能差に対応する十分な問題サイズを与えることが難しいこと,また,これを改善するために何らかの負荷バランス機能が必要であることがわかった.
著者
建部修見 児玉 祐悦 関口 智嗣 山口 喜教
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.5, pp.2246-2255, 1999-05-15
被引用文献数
5

MPIはpoint-to-point通信における対応する送信と受信のマッチングに関するコストが大きく 通信遅延が大きくなる原因となっている. 本研究では ノンブロッキング受信が先行発行される通信パターンにおいて 送信時に受信側に問い合わせることなくリモートメモリ書き込みにより送信を行う方式を提案し 高並列計算機EM-Xに実装しその評価を行った. その結果 通信遅延15.3μsec スループット31.4MB/sを達成し 他MPPに実装されているMPIに比べ優位な性能を示した. 本手法は 他システムにおいても適応可能であり ハードウェアスペックどおりの低遅延 高スループットを得るためには重要な方式と考えられる.MPI point-to-point communication is a basic operation, however it requires runtime-matching of send and receive that causes to reduce performance. This paper proposes a new approach to send messages by remote memory write without inquiring of the receiver under a communication pattern such that the corresponding nonblocking receive is issued in advance. Basically, this approach makes it possible to gain low latency and high bandwidth as the hardware specification. MPI-EMX, our implementation of the MPI on the EM-X multi-processor, achieves a zero-byte latency of 15.3 μsec and a maximum bandwidth of 31.4 MB/s, which can compete with commercial MPPs. This approach to reduce communication latency is widely applicable to other systems and is quite a promising technique for achieving low latency and high bandwidth.
著者
児玉 祐悦 高野 了成 岡崎 史裕 工藤 知宏 伊藤 智
出版者
情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.5, pp.1-7, 2009-11-23

データセンタの省エネルギー化を推進するために、IT 機器による生産性を加味した電力利用効率の指標が求められている。そのような指標を策定するために、処理内容による消費電力のモデル化が重要となる。その一歩として、ネットワーク転送時のノードの消費電力のモデル化を試みた。その際、ペーシングによる帯域制御を行ったところ、転送バンド幅を減少させても消費電力が増加する場合が観測された。これは割り込み削減機構に因るものであり、この割り込み遅延時間を制御することにより、消費電力を削減することができた。ネットワーク転送時の消費電力のモデル化には、転送バンド幅だけでなく、割り込み回数をパラメータとすることが有効であった。To improve the energy efficiency of data centers, the new metrics for data center efficiency are required to include productivity that is a useful work produced in a data center. To propose a new metric, we will create a model of power consumption for productivity. As the first step, we measured the power consumption of nodes when they communicate using network. In this measurement, we observed that the power consumption increased when the effective bandwidth was decreased with rate controlling by pacing. This phenomenon was caused by interrupt coalescing, and by controlling the delay time of interrupt the power consumption can be decreased. We also found that the number of interrupts is a good parameter to estimate the power consumption of nodes with communication.
著者
小田嶋哲哉 李珍泌 朴泰祐 佐藤三久 塙敏博 児玉祐悦 RaymondNamyst SamuelThibault OlivierAumage
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013-HPC-138, no.25, pp.1-9, 2013-02-14

GPU クラスタ上でのプログラミングは,様々なプログラミングモデルが直交しており,複雑になってしまうことが多い.本稿では,分散メモリ環境向け高水準並列プログラミング言語である XMP を GPU クラスタ等のアクセラレータを持つ並列計算機向けに拡張した言語仕様 XMP-dev において,GPU と CPU によるハイブリッド協調計算を実現する XMP-dev/StarPU を提案,実装を行った.XMP-dev は,ノード間通信をベースとし,データの分散や GPU へのオフローディングが可能な並列言語である.しかし,CPU を計算リソースとして GPU と並行して用いるには複雑なプログラミングが必要である.これに対し,StarPU をバックエンドのスケジューラとすることで,計算をタスクという単位で GPU や CPU へスケジューリングすることによりワークシェアリングが可能になる.本稿では,実際のアプリケーションに XMP-dev/StarPU を適用することで,GPU のみを計算に利用するときよりも 1.1~1.2 倍ほどの高速化が可能であることを示した.また,指示文ベースのプログラミングモデルである XMP-dev/StarPU は,通常のプログラミングよりもコストが大幅に削減できることも示した.
著者
宇川 斉志 佐藤 三久 朴 泰祐 児玉 祐悦 山口 佳樹 山本 淳二
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2015-HPC-148, no.24, pp.1-8, 2015-02-23

エクサスケールの計算機の実現にあたって文部科学省の委託研究により大量の演算器を 1 つのマスタープロセッサで制御する Extreme SIMD アーキテクチャが提案された.本稿では Extreme SIMD アーキテクチャ上で実行できるバイナリを生成するためのプログラミングモデルの一つとして Extreme SIMD 向け拡張 C について述べ,それを用いて Extreme SIMD アーキテクチャのシミュレータによる評価を行う.Extreme SIMD 向け拡張 C は PE で実行される文を SIMD 制御文で囲むだけで簡単に指定することが可能で,メモリ操作などはライブラリ関数で提供されるという特徴を持つ.2 次元のラプラス方程式の差分法による計算を実行したところローカルメモリに入りきる 4096×4096 格子の問題サイズではピーク性能に対して最大 74%と高い実効効率を示すが,入りきらない問題サイズでは実効効率が 1 割未満になるという急激な性能低下を起こすことを確認した.
著者
丸山 裕士 山口 佳樹 児玉 祐悦
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J99-D, no.6, pp.594-606, 2016-06-01

本論文では,小型組み込み機器において利用される撮像システムの利便性を高めるために,撮影された動画に生じるブレを実時間で電子的に補正する演算方式の提案とその検証を行った.この提案の特徴は,撮像素子から入力される画素を滞りなくストリーム処理する演算パイプラインを設けることで,メモリアクセス回数及び必要メモリ容量を削減したことにある.また,入力から出力までの演算レイテンシを考えたとき,既存の電子式ブレ補正は一般に2フレーム以上要求するが,本論文ではこれを1フレームに抑えている.加えて,本論文では,提案手法を小規模FPGAであるXilinx社製XC6SLX45に実装し,その実性能を定量的に評価した.FPGA上の提案回路は80 MHzで動作し,画面サイズがSVGA (800×600画素)の場合,最大120 fpsでの実時間処理が可能であった.また,1フレームあたり最大17画素のブレが周期的に発生する撮影条件下で20秒間試験しても,本実装回路は1フレームあたりのブレ量を平均0.1画素未満まで抑制できることを確認した.本提案は,回路規模がコンパクトかつ演算遅延も小さいことから,様々な他の撮像モジュールの性能拡張に広く適用できると考えられる.
著者
児玉 祐悦 工藤 知宏 清水 敏行
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.89, no.8, pp.1695-1704, 2006-08-01

ミッションクリティカルな分散コンピューティングでは,パケットロス率が小さく,障害に強い通信が要求される.そのような高信頼通信を実現するために,マルチパスを用いた通信手法が研究されてきた.これは,通信パケットを複製し,それらを異なるパス経由で転送させ,目的ノードでそれらをマージする手法である.マルチパス手法では,あるパスでパケットロスが起きても,他のパスからそのデータがやってくれば,再送を行うことなく,パケットロスを回復することができる.高バンド幅高遅延ネットワーク間でデータ通信を行う場合には,パケットロスによる通信性能の低下が著しいため,このような遅延に影響されない高信頼化通信は有効である.ギガビットクラスのネットワーク上で高信頼通信を実現するために,我々の開発したネットワークテストベッドGtrcNET-1上に,マルチパス手法を実装した.本実装によりパケットロス率の比較的高い高速ネットワークであっても,マルチパス手法を適用することにより高い通信性能を維持できることを確認した.更に,利用しているパスの転送性能などを受信側から送信側にフィードバックする改良手法を適用することにより,途中のパスで転送性能の低下が起きた場合でも高信頼通信を維持できることを確認した.