- 著者
-
松尾 勇気
石川 裕
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 研究報告ハイパフォーマンスコンピューティング(HPC)
- 巻号頁・発行日
- vol.2014, no.4, pp.1-4, 2014-02-24
時間発展シミュレーションは定期的に計算結果を出力するため、巨大なデータが生成される。そのデータサイズを縮小するため、データ圧縮技術が使われているが、ある時間ステップにおいて書き出すデータの隣接する値の類似性を活用している。本研究では、予測器に基づいた既存の高速な浮動小数点圧縮アルゴリズムを基にした時系列データ圧縮器 t-FPC を提案する。圧縮率を向上させるため、1 つの時間ステップに出力される中間データを、同一の時間ステップのデータ内部のものではなく、最近の複数の時間ステップで出力されたデータ間の差分を用いて圧縮を行う点でそれとは異なる。さらに、書き出す差分データ全体の bit 長の分布から可変サイズでデータを書き出すことにより圧縮率を向上する。また、連続して同じ値の場合、時間ステップの出力が全て同じ値の場合には、特別なエンコーディングをすることにより、圧縮率をさらに向上させる。時間発展シミュレーションである SCALE 気象・気候モデルの実際のファイル出力データを用いた評価により、t-FPC は、既存の浮動小数点データ専用の圧縮器や一般のデータ圧縮器に比べて、圧縮率や処理スループットの観点において、良い性能を達成していることを示す。Time evolution simulations generate a large amount of data periodically to ouput results. Existing compression techniques reduce data size by utilizing the similarity among the neighboring values inside the data that is written at one time step. In this paper, we propose t-FPC, a time-series data compression method that adapts the existing predictor based fast floating point compression algorithm. Compared to previous compression methods, it differs in the aspect that it compresses the intermediate result of one time step utilizing the finite differences among the data of recent multiple time steps, instead of those inside the data at the same time step in order to increase the compression ratio. In t-FPC, diffs are compressed with eight kinds of bit lengths. Those are determined based on bit length distribution of diffs. Special encoding is introduced for the two cases: one is that an element at one time step is the same as the previous time step, and another is that all elements at one time step is completely the same as the previous time step. Using the SCALE weather and climate model, it is shown that t-FPC achieves better processing speed and compression ratio than other data compressors including a famous floating point compressor.