- 著者
-
坪内 佑樹
鶴田 博文
古川 雅大
- 雑誌
- インターネットと運用技術シンポジウム論文集
- 巻号頁・発行日
- vol.2020, pp.9-16, 2020-11-26
Web サービスのソフトウェア規模は,長年の機能開発により日々増大しており,ソフトウェア開発者によるソフトウェアの変更が難しくなっている.そこで,変更を容易にするために,一枚岩のアプリケーションを分解して分散させるマイクロサービスアーキテクチャが普及している.しかし,マイクロサービス化によりシステムの構成要素数が増大するにつれて,システムの性能を示す時系列データ形式の指標であるメトリックの個数が増大する.そのため,システムの性能に異常が発生したときに,網羅的にメトリックを目視できず,システム管理者がその異常の原因を診断することが難しくなっている.先行手法では,複数の構成要素を横断したメトリック間の因果関係を推定することにより,システム内の異常の伝播経路を推論する.しかし,診断に利用できるメトリックの個数は限定されるため,より原因に近いメトリックが推論結果から除外される可能性がある.本論文では,性能異常の診断に有用なメトリックを網羅的に抽出するために,観測されたすべてのメトリックの次元数を削減する手法である TSifter を提案する.TSifter は,定常性を有するメトリックを除外したのちに,類似の形状をとるメトリックをクラスタリングすることにより,異常の特徴を強く表すメトリックのみを抽出する.本手法により,メトリック数が膨大であっても,その異常の診断に適した有用なメトリックを都度抽出できる.マイクロサービスのテストベッド環境に故障を注入する実験の結果,TSifter は,ベースラインとなる手法に対して,正確性と次元削減率の指標では同等程度の性能を有しながらも,270 倍以上高速に動作することを確認した.