著者
中島 耕太 成瀬 彰 住元 真司 久門 耕一
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2011, pp.126-135, 2011-05-18

本論文では,通信量バランスの良いデッドロック回避ルーティング手法であるターン追加法を提案する.本手法は,ターン禁止法の一種であり,スイッチの入力ポートと出力ポートの組であるターンの使用を部分的に禁止してデッドロックを回避する手法である.全ターンを禁止した状態を初期状態とし,通信量の大きいターンから順に許可判定を行い,そのターンを使用してもデッドロックが生じない場合は当該ターンを許可する.ターン単位で禁止/許可を判別するため,既存手法と比較するとネットワークの一部分や一部のスイッチに禁止ターンが偏りやすくなる傾向は低くなる.このため,通信量バランスの良いルーティングを実現しやすい.本手法をランダムネットワークと Fat Tree ベースのクラスタネットワークに適用し,評価した.ランダムネットワークでは,Up*/Down* 法と比較してスループットを最大 2.05 倍改善し,TP 法と比較してほぼ同性能であることを確認した.また,クラスタネットワークでは,8192 ノード構成の Fat Tree を 2 つ接続した場合,Fat Tree を接続する経路において,TP 法と比較して,スループットを最大 4.77 倍改善できることを確認した..
著者
佐藤充 成瀬 彰 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.74, pp.1-6, 2000-08-03
参考文献数
4
被引用文献数
5

実機上でメモリバストレースを取得するバストレーサGATES(General purpose memory Access TracE System)を開発した.共有バス型並列計算機上でCommercial Workload(DBMS2種)を実行し,GATESを用いてメモリバストランザクションを取得した.取得したトレースを元に,キャッシュサイズによるバストランザクションの変化を調査した.さらに,トレースを入力とするトレース・ドリブン・キャッシュシミュレーションを行ない,より大きなキャッシュサイズを持つプロセッサを用いた場合のメモリバストランザクションの挙動を予測した.その際,シミュレーションの妥当性を調べるため,実トレースとの比較を行ない,シミュレーションの正当性を確認した.We developed memory-bus trace system, called GATES (General purpose memory Access TracE System). GATES can capture memory transactions on the memory-bus of shared memory multiprocessors. We got traces on a real shared memory multiprocessor machine on which two types of DBMS are running as commercial work-loads. We evaluated effects of cache with various sizes, using these memory-bus traces. Furthermore, we made trace-driven simulator using these traces and evaluated behavior of memory-bus with larger size of caches. We checked our evaluations comparing the result of simulation and real traces.
著者
後藤 正徳 佐藤 充 中島 耕太 久門 耕一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CPSY, コンピュータシステム (ISSN:09135685)
巻号頁・発行日
vol.106, no.287, pp.7-12, 2006-10-06
被引用文献数
8

近年のPCクラスタで使用されているインタコネクトは高性能化し,メモリバンド幅のスループット性能に近付きつつある.そこで,我々は高速インタコネクトを使用し,遠隔ノードのメモリをスワップとして用いる遠隔スワップメモリ技術の実現可能性を検討している.評価を行うために,我々は遠隔スワップメモリシステムNuzuraを実装した.Nuzuraは10Gb Ethernet上でRDMAを実現するNIC UZURAと,これを用いたネットワークブロックデバイスRNBDをスワップデバイスとして用いる.評価に際しては,本システム上で搭載メモリの数倍を要求する複数のHPCアプリケーションを実行し,性能を測定した.実験結果から,アプリケーションのメモリアクセスパターンや遠隔スワップメモリの使用比率に応じて性能オーバヘッドが異なることを示した.また,ページ置換方式の変更によって姫野ベンチマークの性能が4倍近く向上することを示した.
著者
平井 聡 山本 昌生 佐藤充 成瀬 彰 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.4, pp.1018-1027, 2002-04-15
被引用文献数
1

本論文では,NUMA(Non Uniform Memory Access)マシンでCommercial Workloadを実行する際のLinuxカーネルの最適化実験について述べる.評価システムには,2ノード4プロセッサの小規模なNUMAマシンの実機を使用し,性能の検証にはWEBサーバとアプリケーションサーバをモデル化した2種類のベンチマークを用いた.また,カーネルプロファイラによるOS動作の関数レベルでの実測,およびハードウェア・バストレーサによるメモリアクセスの実測を行い,動作分析を行った.実験の結果,これらのベンチマークプログラムではNUMAマシンのオーバヘッドは主にOS部に依存していることが分かり,メモリアクセス局所化によりOS実行時間を18%?20%削減し,NUMAオーバヘッドを1/3?2/3に削減した.In this paper,we describe the experimental optimization of Linux kernel on a NUMA machine for commercial workloads.For the evaluation,we used a small-scale NUMA machine which consists of two nodes total of four processors.Two kinds of benchmark programs were used for the measurements,each models WEB server execution or application server execution.We measured the OS function execution timings by a kernel profiler and also measured the memory access statistics by a hardware bus tracer.By using these data, we analyzed the execution characteristics of the programs.The experimental results showed the overhead of the NUMA machine is mainly in OS,and the OS execution time can be reduced 18%--20% by the memory access localization for these benchmark programs.
著者
井田昌之 小方一郎 久門耕一 中島浩 日比野靖 丸山勉
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1990, no.78, pp.1-3, 1990-09-28

今回の討論会においては、討論に先だって、各パネラーの立場を明確にしていただいた。特に、「記号処理マシンは生き残れるか?」という間に対する回答を各パネラーに示していただき、それらを本討論会の基礎とすることにした。以下は、各パネラーから寄せられた回答をまとめたものである。この文章と同じ物は、討論会の10日ほど前に、あらかじめ各パネラーにお送りしてある。したがって、本討論会では相手の論点を踏まえた上での議論が展開されるであろう。また、自分の議論の弱点を補強したり相手の議論の欠点を突いたりして、さらに白熱した討論も期待できる。
著者
成瀬 彰 中島 耕太 住元 真司 久門 耕一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2010-HPC-128, no.5, pp.1-8, 2010-12-09

本稿では、Fat-tree 構成の InfiniBand(IB) ネットワークにおける全対全通信時の Hot-spot 発生を回避する手法を提案·評価する。Fat-tree 構成の IB ネットワークでは、適切に使用する計算ノードを選択しないと、Hot-spot 発生により実行通信バンド幅が低下する。本稿では、任意の計算ノード割当てにおいて、全対全通信時の Hot-spot 発生を回避する手法を提案する。提案手法は、各計算ノードに複数の LID(Local Identifier) を割り当てる手法の一種である。全対全通信時の典型的な通信パターンであるシフト通信パターンに着目し、各計算ノード対に生成されるコネクション毎に、使用 LID を適切に選択することで、Hot-spot 発生を回避する。提案手法を OpenMPI で実装し、6-ary-2-tree トポロジーの Fat-tree 構成IBネットワークに接続した 30 ノードの PC クラスタシステムで性能を評価した。任意 16 ノードによる全対全通信性能を測定した結果、提案手法により全対全通信時の Hot-spot 発生を完全に回避できることを確認した。
著者
成瀬 彰 住元 真司 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.99, pp.49-54, 2008-10-08
被引用文献数
2

本稿では メモリバンド幅ネックの流体アプリケーションを GPGPU 上で高速化する手法について述べる。 GPGPU としては CUDA 対応 GPU を対象とした。各種メモリアクセス性能調査結果より、安定して高いメモリバンド幅を実現するには、スレッド進行の同期化、アクセスパターンの局所化、スレッド数の最適化が重要であることが分かった。これに基づいて姫野ベンチマークを高速化した結果、 GeForce GTX 280 上で 69.7 GFLOPS の性能を達成した。これは従来実装と比べて 1.69 倍の性能であり、この性能達成時には 115 GB/s の実効メモリバンド幅が出ていたことを意味する。これは理論ピークメモリバンド幅の 81% に相当する。We present the acceleration technique of CFD (Computational Fluid Dynamics) on GPGPU, that needs high memory bandwidth. The memory bandwidth and latency of GPU are measured on various conditions, and it is clarified that following techniques are required to achieve high memory bandwidth on GPU: synchronization among threads, locality of memory accesses and appropriate number of threads. We've applied these techniques to Himeno benchmark program which is the kernel routine of CFD. Our accelerated code runs 69% faster than the existing implementation and attains 69.7 GFLOPS on GeForce GTX280, that corresponds to 115 GB/s in memory bandwidth.
著者
中島耕太 佐藤充 久門 耕一 谷口 秀夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.18, pp.69-82, 2007-12-15
被引用文献数
1

本論文では,10Gb Ethernet上のRDMA転送機能による仮想マシン移動の設計と評価について述べる.転送時間の削減のために,RDMA転送機能の適用と,NICによる通信処理とCPUによるページのマップ/アンマップ処理のオーバラップ化を図る.また,転送処理が消費するCPU時間の削減のためには,1ページ転送あたりのCPU時間と総転送ページ数を削減する必要がある.仮想マシン上でアプリケーションを動作させたまま転送する場合は,転送処理の間,アプリケーションがページを更新するため,更新ページの再送が生じる.そこで,転送時間の削減により,再送ページ数を削減する.そして,RDMA転送機能の適用により,1ページ転送あたりのCPU時間を削減する.RDMA転送を適用した結果,TCP/IPによる転送時と比較して,アプリケーションが動作している2GBの仮想マシンの転送時間を40.7%削減し6.40 s(336MB/s相当)を達成した.また,転送処理が消費するCPU時間を最大73.6%削減し,仮想マシン上で動作するアプリケーション性能を最大2.68倍に改善した.さらに,オーバラップ化を適用した結果,オーバラップ化非適用時と比較して,転送時間を50.8%削減し3.15s(681MB/s相当)を達成した.また,転送処理が消費するCPU時間を最大11.7%削減し,仮想マシン上で動作するアプリケーション性能を最大6.4%改善した.This paper describes design and evaluation of a virtual machine (VM) migration using RDMA data transfer mechanism over 10Gb Ethernet. In order to reduce elapsed time, we apply RDMA data transfer mechanism and overlap data transfer processing by NIC and page map/unmap processing by CPU. In order to reduce CPU time of VM migration, it is necessary that reduction of CPU time per a page transfer and total number of transfer pages. We apply RDMA to reduce CPU time per a page transfer. And in running application on VM, the reduction of elapsed time reduces total number of transfer pages. By using RDMA data transfer, the migration time of the 2GB VM on which application was running was shorter in 40.7% than using TCP/IP data transfer, and 6.40s (suitable to 336MB/s) was achieved. Moreover, CPU time of VM migration was reduced in 73.6% and the performance of application on VM is improved 2.68 times. In addition, the migration time applied the overlap method was shorter in 50.8% than applied only RDMA, and 3.15s (suitable to 681MB/s) was achieved. CPU time of VM migration was reduced in 11.7% and the performance of application on VM is improved 6.4%.
著者
山本 昌生 山村 周史 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システム評価(EVA) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.26, pp.1-6, 2003-03-07

本論文では、Itanium 2やXeonの性能評価や比較および最適化ポイントについて、HPC(High Performance Computing)向けベンチマークの実測結果に基づいて述べる。ベンチマークにはHPC分野の性能評価で広く利用されている姫野ベンチマークを使用した。また、各CPUの性能モニタリング機能を利用して、CPUやメモリのアーキテクチャレベルでの性能分析も行った。実験の結果、両CPUともHPC向けにはプリフェッチによる最適化が非常に効果的であることがわかった。とくに、Itanium 2ではコンパイラが行うソフトウェアプリフェッチのメモリ最適化効果によって、その性能が0.5GFLOPS?1.4GFLOPSと大きく変化し、コンパイラの最適化により性能が大きく左右されることがわかった。In this paper, we describe the performance evaluation, the comparison and the optimization of Itanium 2 and Xeon, based on the result of the benchmark for HPC(High Performance Computing). For the evaluation, we used the Himeno-BENCHMARK, widely used in the HPC field for the performance evaluation. Moreover, we analyzed the performance from the viewpoint of microarchitecture by using the performance monitoring counters built into the processor. The experimental results showed that memory prefetch operations are very effective for HPC on the both CPUs. Especially on Itanium 2, the performance has changed widely from 0.5GFLOPS to 1.4GFLOPS by the effect of a memory optimization with prefetch instructions which are generated by the compiler. So, we found that the performance of Itanium 2 is more strongly controlled by the compiler's optimizations than the performance of Xeon.
著者
成瀬 彰 住元 真司 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.11, pp.62-70, 2004-10-15
参考文献数
16
被引用文献数
1

本論文では,PCクラスタのプロセッサとしてよく使用されるXeonプロセッサ向けのLinpackベンチマーク高速化手法について述べる.特に,Linpackベンチマーク実行時間の大半を占める倍精度行列積(DGEMM)の最適化手法について説明する.最適化はオープンソースの数値演算ライブラリであるATLASをベースに行い,キャッシュ容量,TLBエントリ数,システムバス負荷の均等化を考慮してDGEMMカーネルを作成し,それに合わせてDGEMMカーネル呼び出し部分を変更した.最適化したDGEMMを2.4 GHz Xeonプロセッサを搭載したFujitsu PRIMERGY L250で評価した結果,DGEMMそのものの性能を測定する正方行列積プログラ厶では4.33 GFlops(実行効率:90.2%)を記録した.また,Linpack ベンチマークでは4.13 GFlops(実行効率:86.0%)を記録した.これは従来最速とされていたGOTO BLAS を5%上回る性能である.In this paper, we explain the optimization technique of matrix multiplication (DGEMM) for Xeon processor, that is heavily used in Linpack benchmark. Our optimization technique is based on reducing cache misses and D-TLB misses and averaging FSB (Front Side Bus) loads. We have applied this technique to an open-source numerical library ATLAS. The benchmark results using our DGEMM implementation show better performance than GOTO BLAS that is famous for a fast DGEMM. On a Fujitsu PRIMERGY L250 system equipped with 2.4 GHz Xeon processors, performance of square matrix multiplication program attains 4.33 GFlops (90.2% efficiency) and performance of Linpack benchmark attains 4.13GFlops (86.0% efficiency).
著者
中島 耕太 佐藤 充 後藤 正徳 久門 耕一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CPSY, コンピュータシステム (ISSN:09135685)
巻号頁・発行日
vol.106, no.287, pp.1-6, 2006-10-06

大容量のデータ転送を伴うXen仮想マシンモニタの仮想マシン移動処理に10Gb Ethernet-NIC UZURAのRDMA転送を適用し,評価した.仮想マシン移動処理の高速化のためには,ネットワークハードウェアの高速化やプロトコル処理オフロードだけでなく,転送処理を制御するアプリケーション処理の最適化が必要である.そこで,RDMA転送の適用に際し,実際の仮想マシン移動における転送処理時間を解析し,アプリケーション処理の最適化について検討を行った.そして,検討した高速化を実際に適用し,評価した.その結果,10Gb Ethernetを用いても,通常のTCP/IP通信を用いた場合(98.4MB/s)やRDMA転送を単純に適用した場合(200MB/s)では,Gigabit Ethernetを用いた場合(82.9MB/s)に対して十分な高速化が実現できないのに村し,アプリケーション処理の最適化を適用した場合では405MB/sとなり,4.89倍の性能向上を実現した.