著者
下村 剛志 山田 浩史
雑誌
研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:21888795)
巻号頁・発行日
vol.2019-OS-146, no.11, pp.1-10, 2019-05-23

メモリは外的要因によるビットフリップやモジュールの故障により保存したデータが呼び出せなくなることがある.特に In-Memory Key-Value Store(In-Memory KVS)はメモリを大量に使用するのでメモリページのエラーに遭遇する可能性が高いアプリケーションの一つである.しかし,In-Memory KVS はメモリ上に全ての key-value を展開しており,再起動にかかるコストが高い.既存研究では ECC などの誤り訂正符号を用いたエラーの回復を行っているが,広範囲に渡るメモリのエラーには対応できていない.本論文では,メモリに部分的な故障が生じたとしても,In-Memory KVS を継続して稼働可能にする手法を提案する.提案手法では OS Kernel と In-Memory KVS を連携させ,メモリページのエラー発生時に破損ページに保存されていたデータオブジェクトの回復処理を行い,動作を継続させる.本研究では Linux Kernel 4.13.9 と memcached 1.4.39 に提案手法の実装を行った.評価実験を行い,メモリエラー発生時でも約 3 秒のダウンタイムでスループットの劣化無しに動作が継続することを確認した.