- 著者
-
佐藤 仁
松岡 聡
遠藤 敏夫
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
- 巻号頁・発行日
- vol.2007, no.80, pp.109-114, 2007-08-02
グリッドファイルシステムでは、1) クライアントからある特定のノードやファイルへのアクセスに時間的局所性がありアクセスが集中する、2) ファイルシステム上のファイルへのアクセスが空間的に遠方に存在するノードへのアクセスとなる、などの要因によりファイルアクセス性能が低下することが問題となる。しかし、効率の良い大規模データ管理を実現するためにどのようにファイルをグリッドファイルシステムを構成する広域に分散したノードに配置すれば良いかの戦略を決定づけるメトリックは明らかではない。我々は、広域に分散した 5 サイトからなる HPC クラスタを連携してファイルシステムを構成し、その上で、ファイルアクセスの行った際の性能を調査した。その結果、リモートファイルアクセス性能はノード間のバンド幅の影響を受けるが、RTT、バンド幅などのネットワークの限定された情報だけではファイルシステムを構成するノードの関係の推定が困難であること、ローカルファイルアクセス性能でもファイルアクセスパターンにより最大 0.1倍の性能に抑えられてしまうこと、が明らかになった。In parallel computing environments such as HPC clusters and the Grid, data-intensive applications involve large overhead due to the access concentration on files on commonly shared nodes. A grid filesystem with an automatic data management mechanism is one of the solutions to avoid such performance decrease. However, metrics to achieve efficient large scale data management are not clear for a given real grid environment. We federated 5 geographically distributed HPC clusters using a grid filesystem and experimented its various performance metrics of file access on the filesystem. We observed that, although remote access performance of files is affected by inter-node bandwidth, other factors are in place which makes prediction of performance solely based on limited inter-node information such as RTT or network bandwidth difficult, and that even for local file access, performance difference could be an order of magnitude depending on file access patterns due to access contentions.