著者
平井 聡 山本 昌生 佐藤充 成瀬 彰 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.4, pp.1018-1027, 2002-04-15
被引用文献数
1

本論文では,NUMA(Non Uniform Memory Access)マシンでCommercial Workloadを実行する際のLinuxカーネルの最適化実験について述べる.評価システムには,2ノード4プロセッサの小規模なNUMAマシンの実機を使用し,性能の検証にはWEBサーバとアプリケーションサーバをモデル化した2種類のベンチマークを用いた.また,カーネルプロファイラによるOS動作の関数レベルでの実測,およびハードウェア・バストレーサによるメモリアクセスの実測を行い,動作分析を行った.実験の結果,これらのベンチマークプログラムではNUMAマシンのオーバヘッドは主にOS部に依存していることが分かり,メモリアクセス局所化によりOS実行時間を18%?20%削減し,NUMAオーバヘッドを1/3?2/3に削減した.In this paper,we describe the experimental optimization of Linux kernel on a NUMA machine for commercial workloads.For the evaluation,we used a small-scale NUMA machine which consists of two nodes total of four processors.Two kinds of benchmark programs were used for the measurements,each models WEB server execution or application server execution.We measured the OS function execution timings by a kernel profiler and also measured the memory access statistics by a hardware bus tracer.By using these data, we analyzed the execution characteristics of the programs.The experimental results showed the overhead of the NUMA machine is mainly in OS,and the OS execution time can be reduced 18%--20% by the memory access localization for these benchmark programs.
著者
田邨 優人 中島 耕太 山本 昌生 前田 宗則
雑誌
研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:21888795)
巻号頁・発行日
vol.2017-OS-141, no.22, pp.1-6, 2017-07-19

ハードウェアの進歩に伴い,従来よりも大幅に低レイテンシな記憶装置やインターコネクタが登場している.計算機環境のさらなる高性能化,大規模化が求められる昨今では,今後これらのデバイスが主流になると考えられるが,大部分の計算機システムではその高速性を活かせない場合が多い.その一つの原因としてカーネル内でデバイスからの応答の検知にハードウェア割り込みを使用していることが挙げられる.性能が重要視される HPC 分野などではハードウェア割り込みよりも高速にデバイスからの応答検知を行うために polling という手法が用いられる.しかし polling は CPU リソースを占有してしまうという特性から汎用的な計算機システムには積極的に用いられることはなかった.そこで本研究では CPU リソースを管理しながらカーネル内で polling を行うための polling idle ドライバを提案する.提案手法を NVMe over Fabrics に実装して評価を行ったところ,最大 47.1% のレイテンシ削減効果,最大 77.3% の iops 向上を確認し,また iops の上限値が従来から 40.2% 向上したことを確認した.
著者
山本 昌生 山村 周史 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システム評価(EVA) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.26, pp.1-6, 2003-03-07

本論文では、Itanium 2やXeonの性能評価や比較および最適化ポイントについて、HPC(High Performance Computing)向けベンチマークの実測結果に基づいて述べる。ベンチマークにはHPC分野の性能評価で広く利用されている姫野ベンチマークを使用した。また、各CPUの性能モニタリング機能を利用して、CPUやメモリのアーキテクチャレベルでの性能分析も行った。実験の結果、両CPUともHPC向けにはプリフェッチによる最適化が非常に効果的であることがわかった。とくに、Itanium 2ではコンパイラが行うソフトウェアプリフェッチのメモリ最適化効果によって、その性能が0.5GFLOPS?1.4GFLOPSと大きく変化し、コンパイラの最適化により性能が大きく左右されることがわかった。In this paper, we describe the performance evaluation, the comparison and the optimization of Itanium 2 and Xeon, based on the result of the benchmark for HPC(High Performance Computing). For the evaluation, we used the Himeno-BENCHMARK, widely used in the HPC field for the performance evaluation. Moreover, we analyzed the performance from the viewpoint of microarchitecture by using the performance monitoring counters built into the processor. The experimental results showed that memory prefetch operations are very effective for HPC on the both CPUs. Especially on Itanium 2, the performance has changed widely from 0.5GFLOPS to 1.4GFLOPS by the effect of a memory optimization with prefetch instructions which are generated by the compiler. So, we found that the performance of Itanium 2 is more strongly controlled by the compiler's optimizations than the performance of Xeon.