著者
青木 秀貴 中村 友洋 助川 直伸 齋藤 拡二 深川 正一 中川 八穂子 五百木 伸洋
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.46, no.SIG12(ACS11), pp.27-36, 2005-08-15

科学技術計算をターゲットとするスーパーテクニカルサーバSR11000 モデルJ1 を開発した.POWER5 を16CPU 搭載するSR11000 モデルJ1 のノードは,理論ピーク演算性能121.6GFLOPSを有し,協調型マイクロプロセッサ(COMPAS)と呼ぶノード内並列処理方式と,擬似ベクトル処理(PVP)によるメモリアクセスを含めたパイプライン処理により,単一の高性能なプロセッシングエレメントとして利用できる.本稿では,COMPAS とPVP を可能とするSR11000 モデルJ1 のノードアーキテクチャを紹介するとともに,ノード性能の評価結果について述べる.
著者
中村 友洋 高山 恒一 青木 秀貴 松居 昭宏 助川 直伸
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2003, no.119(2003-ARC-155), pp.69-74, 2003-11-27

共有メモリ型計算機において高い並列実効性能を実現するには,並列処理の起動終結時のバリア同期オーバーヘッドを低減することが重要である。ノードを構成する複数のマイクロプロセッサを一斉にしかも高速に起動させる協調型マイクロプロセッサ機構により高い並列実効性能を達成したスーパーテクニカルサーバSR8000の後継シリーズの初代モデルであるSR11000モデルH1は,キャッシュシステムを利用したソフトウェアによるバリア同期方式により,高速なバリア同期処理を実現することで,高い並列実効性能を達成する。本稿では高速バリア同期方式の概要とその高速化手法について述べ,SR11000モデルH1による性能評価結果を紹介する。
著者
青木 秀貴 處 雅尋 本川 敬子 五百木 伸洋 齋藤 拡二
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2004, no.80(2004-ARC-159), pp.109-114, 2004-07-31

SR11000モデルH1が採用するPOWER4+はハードウェアによるデータプリフェッチをサポートするが,多数のロードストリームを含むループでは,ハードウェアですべてのストリームをプリフェッチすることができず,性能が低下する。本稿では,この問題を解消するソフトウェアプリフェッチ手法について紹介する。評価の結果,本手法の適用により,ストリーム数が増えた場合にも安定して高い性能を実現できることを確認し,ストリーム数を考慮したループ分割が不要なことを明らかにした。SR11000モデルH1向けの日立最適化FORTRAN90コンパイラは,本手法によるコード生成が可能である。
著者
松居 昭宏 助川 直伸 高山 恒一 青木 秀貴 中村 友洋
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2003, no.119(2003-ARC-155), pp.81-86, 2003-11-27

大規模な科学技術計算アプリケーションは,一般に高いメモリ性能を要求する。これに対し,スーパーテクニカルサーバSR11000モデルH1では,高性能なメモリシステムの設計を行った。新しい設計における同機のアプリケーション特性を知るため,メモリに対する負荷を定量化する性能分析手法を開発した。SR11000モデルH1における評価の結果,本手法によりアプリケーション特性を高精度に定量化することが可能であり、また、得られた特性がアプリケーションのチューニング指標としても有効であることを確認した。
著者
青木 秀貴 高山 恒一 中村 友洋 松居 昭宏 助川 直伸
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2003, no.119(2003-ARC-155), pp.75-80, 2003-11-27

POWER4+プロセッサによる8CPU超のSMPノードでは,各CPUがL2キャッシュミスを起こした際に発行するスヌープ要求同士の競合により,性能低下が発生する。このスヌープ競合の影響を評価した結果,スヌープ競合の発生しない8CPU構成と比べ,24CPU構成/32CPU構成ではアプリケーション実行時にそれぞれ平均20%/27%の性能低下を起こすのに対し,16CPU構成では平均10%の性能低下にとどまり,CPU数に対する高い性能スケーラビリティを実現できることがわかった。この結果に基づき,SR11000モデルH1のノードを16CPU構成とした。