著者
竹房あつ子 中田秀基 池上努 田中良夫
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013, no.20, pp.1-6, 2013-07-24

階層型タスク並列処理は,タスクの再実行や冗長実行により耐障害性を備えたプログラムが設計できるため,ポストペタスケール高性能計算における有望なプログラミングモデルの 1 つと考えられている.我々は,耐障害性を備えたアプリケーションプログラムの開発を支援にする耐障害アプリケーションフレームワーク Falanx を提案している.このようなアプリケーションフレームワークは,計算に必要となるデータを障害から保全するデータストア機構と計算ノードの健全性を監視しつつ適切に計算を実行する資源管理機構からなる.これらを,ポストペタスケール計算機環境においてスケーラブルでかつ,それら自身が耐故障性を持つように設計・実装する必要がある.本研究では,耐障害アプリケーションフレームワークのポストペタスケール計算機環境での性能特性を検証して技術的課題を明らかにすることを目的とし,試験実装となるパーシステントストレージを利用した高可用分散協調スケジューラを設計・開発する.本スケジューラは既に実装を進めている資源管理機構と新たに追加したデータストア機構で構成され,Apache ZooKeeper と Apache Cassandra を用いて実装することで耐障害性を実現する.本スケジューラを用いた予備実験から,処理中に計算ノードが落ちてしまった場合も,自動的にタスクが再実行されアプリケーションプログラムが継続実行できることを確認した.