著者
弘中 健 澤井 省吾 田浦 健次朗
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.83, pp.71-78, 2007-08-03
参考文献数
17

本研究では実行時に動的に計算資源が変化するような環境で有効な,分散オブジェクト指向ライブラリを設計し,これを用いて簡潔な記述で大規模な計算資源で処理を並列するフレームワークを実装した.近年計算資源が着実に増えているが,決まった資源を継続的に使えることは少なく,実行時に追加・削除が出来ることが求められている.このような環境で並列分散計算を手軽に行うライブラリは稀である.既存の多くの実装は各拠点へのインストール,複雑な設定ファイルの記述などを必要とする.その中,大量なデータファイルに対して大規模な計算資源で並列に処理をしたいという要望が多い.このような要望に対し,従来のライブラリでは敷居が高く,生産性も低い.我々は Python スクリプト言語に分散オブジェクトライブラリ拡張を施した.このライブラリはインストール,設定ファイルの記述などは全く必要とせず,スクリプト言語で透過的に分散環境での計算を可能にする.また,このライブラリを用いて大量のファイルを入力に取り,並列に実行する処理の記述を容易にするようなフレームワークを実装した.このフレームワークでは,ユーザーは希望する処理のみを記述し,ネットワーク,資源の増減などの煩雑さから開放することで高い生産性を与えることが出来る.このフレームワークの有用性を実アプリケーションを用い,評価を行った.We propose a distributed object-oriented library that allows computation across computing resources in which node join and leave dynamically. Using this library, we implemented a framework that parallelizes job processing in the presence of joining and leaving nodes. Existing libraries that enable distributed computation requires node-based installation as well as preparing complex configuration files. This is a large overhead for application writers who want to parallelize or distribute computation. Additionally, we have witnessed an increasing demand for frameworks that allow easy parallelization of jobs that process an enormous amount of data. It is important that such applications can be written on-the-fly with very little programming and configuring. We implemented our library as an extension to Python, a mainstream script language. Our library does not require any installation or configuration files, and allows deployment across large resources with consideration of joining and leaving nodes. In the framework implemented on top of our library, jobs that take large data files may be parallelized with minimal coding, alleviating the user from worries with respect to network programming, and dynamic changes in resources. We evaluated this framework using a real-life application to show its effectiveness.
著者
高宮 安仁 弘中 健 斎藤 秀雄 田浦 健次朗
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.35, pp.131-138, 2008-04-24

複数の拠点に配置されたクラスタを連結し、1 つの分散計算機環境として提供する試みが国内外で広まりつつある。こうした環境で長時間に及ぶ科学技術計算を安定して実行可能にするためには、複数拠点を 1 つの均一な実行環境として迅速に構築するとともに、メンテナンスに伴うダウンタイムを最小限にする必要がある。しかし、既存研究では複数拠点のセットアップに対応していないという問題や、環境更新ごとに OS の再インストールを必要とするため、ダウンタイムが増大するといった問題があった。我々は分散環境上に安定した計算機環境を効率良く構築するためのツールとして Lucie を開発している。Lucie では、全拠点を並列にセットアップするための機構や、再インストールを行うことなくソフトウェア障害からの復旧やアップグレードを行う機構を備えている。評価では、グリッド全体のセットアップ性能を確認するため、代表的な分散計算機環境の 1 つである InTrigger を用いて全 5 拠点、86 ノードを同時にセットアップした。結果、拠点数の増加が拠点ごとのインストール性能に影響を与えず、複数拠点を並列に効率良くセットアップできることを確認した。With arising of long running scientific jobs executed in grid environment, it is needed to construct a distributed multi-cluster envrionment as one uniform execution envrionment rapidly while minimizing downtime caused by software maintainances. Although there were considerable amount of efforts against grid management frameworks, no one aimed at parallel setup of multiple sites, or upgrading of the whole software environment without re-installation of OS. In this paper, we propose a new management tool for multi-cluster environment called Lucie, which allows rapid construction of stable multi-cluster computing platform over distributed environment. With Lucie, one could recover from software faults or upgrade the whole software stacks in parallel without the need of re-installation of OS. In our benchmark, we applied Lucie for construction of InTrigger grid environment. The result showed that the increase of number of sites parallely setup does not affect the other ones, so we could setup multiple sites efficiently.