著者
木村 健人 光来 健一
雑誌
研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:21888795)
巻号頁・発行日
vol.2020-OS-150, no.6, pp.1-8, 2020-07-23

近年の大規模かつ複雑なシステムにおいてシステム障害を回避するのは難しい.そのため,システムに障害が発生した場合には迅速に障害を検知して復旧を行うことが重要である.障害からの復旧を行うにはシステムにログインして作業を行う必要があるが,システムが応答しなければハードウェアリセットによって復旧するしかない.しかし,強制的にシステムのリセットを行うとデータが失われ,復旧に時間やコストがかかる可能性がある.本稿では,GPU 上の復旧システムが OS を間接的に制御することでシステム障害からの復旧を行う GPUfas を提案する.GPUfas では,GPU からメインメモリ上の OS データを書き換え,OS 自身の機能を用いて障害の原因を取り除く.復旧の一例として,GPU からプロセスに疑似的なシグナルを送信することによりプロセスレベルの障害からの復旧を可能にする.我々は Linux と CUDA を用いて GPUfas を実装し,GPU からメインメモリ上の OS データを透過的に書き換えられるようにした.VM 内のシステムの障害については,VM イントロスペクションを拡張して OS データを書き換えられるようにした.GPUfas を用いてプロセスレベルの障害からの復旧についての実験を行った.

言及状況

Twitter (4 users, 4 posts, 32 favorites)

この研究めっちゃ凄いことやってるな… GPUからホストのOS用メモリをいじくって,調子が悪くなった(例えばめっちゃメモリを食ってるとか,CPU暴走してるとか)プロセスにシグナルを送るらしい。 https://t.co/pFWgDDwjuM
GPUからの疑似的なシグナル送信によるプロセスレベル障害からの復旧 https://t.co/MlzQsRJNJs

収集済み URL リスト