著者
斎藤 秀雄 田浦 健次朗 近山 隆
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2006, no.87(2006-HPC-107), pp.25-30, 2006-07-31

我々が開発している広域分散計算環境用のメッセージパッシングシステムMPI/GXPについて説明する.MPI/GXPは計算環境が実行毎に変化するということを意識して,実行時に測定した遅延や通信量を基に様々な性能最適化を行う.5クラスタ256プロセッサという環境では,遅延を考慮した接続確立を行うことによって,既存のグリッド用メッセージパッシングシステムのようにルータが維持できるセッション数に制限されることなく動作した.また 通信オーバヘッドを考慮したrank 割り当てを行うことによって ランダムなrank割り当てを行った場合と比べてNAS Parallel Benchmarks の性能が60%から100%向上した.
著者
合田 憲人 大澤 清 大角 知孝 笠井 武史 小野 功 實本 英之 松岡 聡 斎藤 秀雄 遠藤 敏夫 横山 大作 田浦 健次朗 近山 隆 田中 良夫 下坂 久司 梶原広輝 廣安 知之 藤澤克樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.49-54, 2006-07-31
被引用文献数
3

本稿では,2005年12月から2006年5月にかけて実施されたGrid Challenge in SACSIS2006において使用されたグリッド実験環境の構築・運用事例を報告する.Grid Challengeは,大学,研究所が提供する複数の計算資源からなるグリッド実験環境上で,参加者がプログラミング技術を競う大会であり,今大会では1200CPU超の計算資源からなるグリッド実験環境が運用された.本稿では,実験環境ハードウェアおよびソフトウェアの仕様を紹介するとともに,ユーザ管理,ジョブ管理,障害対応といった運用事例についても報告する.This paper presents a case study to operate the Grid testbed for the Grid Challenge in SACSIS2006. The Grid Challenge is a programming competition on a Grid testbed, which is organized by multiple computing resources installed in universities and laboratories. In the last competition, the Grid testbed with more than 1200 CPUs was operated. The paper shows hardware/software specifications of the Grid testbed, and reports experience of the operation, which includes accounting, job management, and troubleshooting.
著者
高宮 安仁 弘中 健 斎藤 秀雄 田浦 健次朗
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.35, pp.131-138, 2008-04-24

複数の拠点に配置されたクラスタを連結し、1 つの分散計算機環境として提供する試みが国内外で広まりつつある。こうした環境で長時間に及ぶ科学技術計算を安定して実行可能にするためには、複数拠点を 1 つの均一な実行環境として迅速に構築するとともに、メンテナンスに伴うダウンタイムを最小限にする必要がある。しかし、既存研究では複数拠点のセットアップに対応していないという問題や、環境更新ごとに OS の再インストールを必要とするため、ダウンタイムが増大するといった問題があった。我々は分散環境上に安定した計算機環境を効率良く構築するためのツールとして Lucie を開発している。Lucie では、全拠点を並列にセットアップするための機構や、再インストールを行うことなくソフトウェア障害からの復旧やアップグレードを行う機構を備えている。評価では、グリッド全体のセットアップ性能を確認するため、代表的な分散計算機環境の 1 つである InTrigger を用いて全 5 拠点、86 ノードを同時にセットアップした。結果、拠点数の増加が拠点ごとのインストール性能に影響を与えず、複数拠点を並列に効率良くセットアップできることを確認した。With arising of long running scientific jobs executed in grid environment, it is needed to construct a distributed multi-cluster envrionment as one uniform execution envrionment rapidly while minimizing downtime caused by software maintainances. Although there were considerable amount of efforts against grid management frameworks, no one aimed at parallel setup of multiple sites, or upgrading of the whole software environment without re-installation of OS. In this paper, we propose a new management tool for multi-cluster environment called Lucie, which allows rapid construction of stable multi-cluster computing platform over distributed environment. With Lucie, one could recover from software faults or upgrade the whole software stacks in parallel without the need of re-installation of OS. In our benchmark, we applied Lucie for construction of InTrigger grid environment. The result showed that the increase of number of sites parallely setup does not affect the other ones, so we could setup multiple sites efficiently.