- 著者
-
鶴田 博文
坪内 佑樹
- 雑誌
- インターネットと運用技術シンポジウム論文集
- 巻号頁・発行日
- vol.2021, pp.24-31, 2021-11-18
Web サービスを構成する分散システムは,利用者からの多様な要求に応えるために,システム構成が複雑化している.また,システムへの変更頻度が高くなっており,システム構成の変化が速くなっている.これらの要因により,システムに性能異常が起きた際に,システム管理者が原因の診断に要する時間が増大するため,迅速な原因診断手法が必要である.先行手法として,システムの性能を示す時系列データであるメトリックに機械学習モデルを適用する手法がある.しかし,モデルとして学習に長い時間を要する深層学習が用いられているため,迅速に診断を行うには事前にモデルを学習する必要がある.モデルへの入力となるメトリックの系列数は固定であるため,システム構成が変更されて系列数が増減する場合,新たなモデルを学習しなければならない.これにより,システム構成の変更に迅速に追従した原因診断が難しい.解決方法として,高速に学習できる軽量な機械学習モデルを用いて,異常検知後に学習を行う方法が挙げられる.しかし,軽量な機械学習モデルは一般に深層学習よりも表現力が低いため,それに伴い診断精度が低くなる可能性がある.一方,機械学習モデルの予測の解釈性に関する研究が現在盛んに行われており,これらが原因診断にも有用であることが示されている.本論文では,異常検知後に軽量な機械学習モデルを学習し,解釈手法として注目されているシャープレイ値を用いて原因診断を行う手法を提案する.提案手法は,異常検知後の学習により,システム構成が頻繁に変更される場合でも常に現状の構成を反映した診断ができる.また,シャープレイ値が診断精度を高められるか検討する.実験から,提案手法は原因のメトリックの系列を 44.8% の精度で上位 1 位,82.3% の精度で上位 3 位以内に特定することを示した.