著者
坪内 佑樹 青山 真也
雑誌
インターネットと運用技術シンポジウム論文集
巻号頁・発行日
vol.2021, pp.63-70, 2021-11-18

クラウド上の大規模なアプリケーションの構成は,機能単位で独立して変更可能とするために,単一の巨大なアプリケーションを分解して分散協調させるマイクロサービスアーキテクチャへと変遷している.アプリケーション構成の分散化により,構成要素数が増大し,構成要素間の依存関係が複雑化することから,システム管理者の認知負荷が高まっている.認知負荷を低減するために,システム管理者の経験と直感が要求される異常検知と異常の原因分析を自動化するための研究が盛んである.これらの研究では,データ分析手法を実験により評価する際に,正常データと異常データを含む運用データが必要となる.既存の公開されているデータセットは,その静的な性質故に,データセットに含まれる異常パターンの数は限られる.本研究では,多様な異常のパターンに対して異常検知・原因分析手法を評価するために,データセットを動的に生成するためのシステムである Meltria の設計基準を提案する.我々が提案する設計基準は,(1) 運用データに異常を含めるために,多様な故障注入を実行し,データを採取するための一連の手続きを実行可能なスケジューリング,および,(2) 故障注入の影響と想定外の異常のそれぞれの有無をデータセットにラベル付けするための検証の自動化である.Meltria を用いて,故障注入の種類やパラメータを変更することにより,様々な異常のパターンを含んだデータセットを生成できる.実験の結果,生成されたデータセットに対する (2) の基準に基づいた検証手法の正解率は 85% となった.