著者
中島 耕太 成瀬 彰 住元 真司 久門 耕一
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2011, pp.126-135, 2011-05-18

本論文では,通信量バランスの良いデッドロック回避ルーティング手法であるターン追加法を提案する.本手法は,ターン禁止法の一種であり,スイッチの入力ポートと出力ポートの組であるターンの使用を部分的に禁止してデッドロックを回避する手法である.全ターンを禁止した状態を初期状態とし,通信量の大きいターンから順に許可判定を行い,そのターンを使用してもデッドロックが生じない場合は当該ターンを許可する.ターン単位で禁止/許可を判別するため,既存手法と比較するとネットワークの一部分や一部のスイッチに禁止ターンが偏りやすくなる傾向は低くなる.このため,通信量バランスの良いルーティングを実現しやすい.本手法をランダムネットワークと Fat Tree ベースのクラスタネットワークに適用し,評価した.ランダムネットワークでは,Up*/Down* 法と比較してスループットを最大 2.05 倍改善し,TP 法と比較してほぼ同性能であることを確認した.また,クラスタネットワークでは,8192 ノード構成の Fat Tree を 2 つ接続した場合,Fat Tree を接続する経路において,TP 法と比較して,スループットを最大 4.77 倍改善できることを確認した..
著者
佐藤充 成瀬 彰 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.74, pp.1-6, 2000-08-03
参考文献数
4
被引用文献数
5

実機上でメモリバストレースを取得するバストレーサGATES(General purpose memory Access TracE System)を開発した.共有バス型並列計算機上でCommercial Workload(DBMS2種)を実行し,GATESを用いてメモリバストランザクションを取得した.取得したトレースを元に,キャッシュサイズによるバストランザクションの変化を調査した.さらに,トレースを入力とするトレース・ドリブン・キャッシュシミュレーションを行ない,より大きなキャッシュサイズを持つプロセッサを用いた場合のメモリバストランザクションの挙動を予測した.その際,シミュレーションの妥当性を調べるため,実トレースとの比較を行ない,シミュレーションの正当性を確認した.We developed memory-bus trace system, called GATES (General purpose memory Access TracE System). GATES can capture memory transactions on the memory-bus of shared memory multiprocessors. We got traces on a real shared memory multiprocessor machine on which two types of DBMS are running as commercial work-loads. We evaluated effects of cache with various sizes, using these memory-bus traces. Furthermore, we made trace-driven simulator using these traces and evaluated behavior of memory-bus with larger size of caches. We checked our evaluations comparing the result of simulation and real traces.
著者
平井 聡 山本 昌生 佐藤充 成瀬 彰 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.4, pp.1018-1027, 2002-04-15
被引用文献数
1

本論文では,NUMA(Non Uniform Memory Access)マシンでCommercial Workloadを実行する際のLinuxカーネルの最適化実験について述べる.評価システムには,2ノード4プロセッサの小規模なNUMAマシンの実機を使用し,性能の検証にはWEBサーバとアプリケーションサーバをモデル化した2種類のベンチマークを用いた.また,カーネルプロファイラによるOS動作の関数レベルでの実測,およびハードウェア・バストレーサによるメモリアクセスの実測を行い,動作分析を行った.実験の結果,これらのベンチマークプログラムではNUMAマシンのオーバヘッドは主にOS部に依存していることが分かり,メモリアクセス局所化によりOS実行時間を18%?20%削減し,NUMAオーバヘッドを1/3?2/3に削減した.In this paper,we describe the experimental optimization of Linux kernel on a NUMA machine for commercial workloads.For the evaluation,we used a small-scale NUMA machine which consists of two nodes total of four processors.Two kinds of benchmark programs were used for the measurements,each models WEB server execution or application server execution.We measured the OS function execution timings by a kernel profiler and also measured the memory access statistics by a hardware bus tracer.By using these data, we analyzed the execution characteristics of the programs.The experimental results showed the overhead of the NUMA machine is mainly in OS,and the OS execution time can be reduced 18%--20% by the memory access localization for these benchmark programs.
著者
成瀬 彰 中島 耕太 住元 真司 久門 耕一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2010-HPC-128, no.5, pp.1-8, 2010-12-09

本稿では、Fat-tree 構成の InfiniBand(IB) ネットワークにおける全対全通信時の Hot-spot 発生を回避する手法を提案·評価する。Fat-tree 構成の IB ネットワークでは、適切に使用する計算ノードを選択しないと、Hot-spot 発生により実行通信バンド幅が低下する。本稿では、任意の計算ノード割当てにおいて、全対全通信時の Hot-spot 発生を回避する手法を提案する。提案手法は、各計算ノードに複数の LID(Local Identifier) を割り当てる手法の一種である。全対全通信時の典型的な通信パターンであるシフト通信パターンに着目し、各計算ノード対に生成されるコネクション毎に、使用 LID を適切に選択することで、Hot-spot 発生を回避する。提案手法を OpenMPI で実装し、6-ary-2-tree トポロジーの Fat-tree 構成IBネットワークに接続した 30 ノードの PC クラスタシステムで性能を評価した。任意 16 ノードによる全対全通信性能を測定した結果、提案手法により全対全通信時の Hot-spot 発生を完全に回避できることを確認した。
著者
成瀬 彰 住元 真司 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.99, pp.49-54, 2008-10-08
被引用文献数
2

本稿では メモリバンド幅ネックの流体アプリケーションを GPGPU 上で高速化する手法について述べる。 GPGPU としては CUDA 対応 GPU を対象とした。各種メモリアクセス性能調査結果より、安定して高いメモリバンド幅を実現するには、スレッド進行の同期化、アクセスパターンの局所化、スレッド数の最適化が重要であることが分かった。これに基づいて姫野ベンチマークを高速化した結果、 GeForce GTX 280 上で 69.7 GFLOPS の性能を達成した。これは従来実装と比べて 1.69 倍の性能であり、この性能達成時には 115 GB/s の実効メモリバンド幅が出ていたことを意味する。これは理論ピークメモリバンド幅の 81% に相当する。We present the acceleration technique of CFD (Computational Fluid Dynamics) on GPGPU, that needs high memory bandwidth. The memory bandwidth and latency of GPU are measured on various conditions, and it is clarified that following techniques are required to achieve high memory bandwidth on GPU: synchronization among threads, locality of memory accesses and appropriate number of threads. We've applied these techniques to Himeno benchmark program which is the kernel routine of CFD. Our accelerated code runs 69% faster than the existing implementation and attains 69.7 GFLOPS on GeForce GTX280, that corresponds to 115 GB/s in memory bandwidth.
著者
成瀬 彰 住元 真司 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.11, pp.62-70, 2004-10-15
参考文献数
16
被引用文献数
1

本論文では,PCクラスタのプロセッサとしてよく使用されるXeonプロセッサ向けのLinpackベンチマーク高速化手法について述べる.特に,Linpackベンチマーク実行時間の大半を占める倍精度行列積(DGEMM)の最適化手法について説明する.最適化はオープンソースの数値演算ライブラリであるATLASをベースに行い,キャッシュ容量,TLBエントリ数,システムバス負荷の均等化を考慮してDGEMMカーネルを作成し,それに合わせてDGEMMカーネル呼び出し部分を変更した.最適化したDGEMMを2.4 GHz Xeonプロセッサを搭載したFujitsu PRIMERGY L250で評価した結果,DGEMMそのものの性能を測定する正方行列積プログラ厶では4.33 GFlops(実行効率:90.2%)を記録した.また,Linpack ベンチマークでは4.13 GFlops(実行効率:86.0%)を記録した.これは従来最速とされていたGOTO BLAS を5%上回る性能である.In this paper, we explain the optimization technique of matrix multiplication (DGEMM) for Xeon processor, that is heavily used in Linpack benchmark. Our optimization technique is based on reducing cache misses and D-TLB misses and averaging FSB (Front Side Bus) loads. We have applied this technique to an open-source numerical library ATLAS. The benchmark results using our DGEMM implementation show better performance than GOTO BLAS that is famous for a fast DGEMM. On a Fujitsu PRIMERGY L250 system equipped with 2.4 GHz Xeon processors, performance of square matrix multiplication program attains 4.33 GFlops (90.2% efficiency) and performance of Linpack benchmark attains 4.13GFlops (86.0% efficiency).