著者
鶴田 博文 松本 亮介
雑誌
インターネットと運用技術シンポジウム論文集
巻号頁・発行日
vol.2019, pp.87-94, 2019-11-28

Web サービスを支えるインフラは,ユーザからの多様な要求に応えるために,ユーザにシステムの構成情報やその変更を意識させることなく,迅速かつ柔軟にシステム構成を変更することが求められる.一方,サーバへのリモート接続サービスとして利用されている SSH では,ユーザが利用するサーバの IP アドレスまたはホスト名を指定して接続要求を送るため,サーバの IP アドレスまたはホスト名に変更があった場合,ユーザは変更後の情報を知る必要がある.この問題を解決するために,gcloud コマンドのようなクライアントツールがサーバごとの一意のラベル情報をもとに接続先の IP アドレス等を取得する手法があるが,この手法ではユーザに用いるツールの制限や変更を要求する.別の手法として,SSH Piper のようなプロキシサーバがユーザ名をもとに接続先の IP アドレス等取得する手法があるが,既存のプロキシサーバではその動作を変更するためにはソースコードを直接変更しなければならない.本論文では,ユーザに用いるクライアントツールの制限や変更を要求せず,システム管理者が組み込み可能なフック関数を用いてシステム変化に追従できる SSH プロキシサーバを提案する.提案手法は,組み込むフック関数のみの修正でプロキシサーバの動作を自由に変えられるため,システムの仕様変更に対して高い拡張性を有している.さらに実験から,提案手法を導入した場合の SSH セッション確立のオーバーヘッドは 20 ミリ秒程度であり,ユーザがサーバに SSH ログインする際に遅延を感じないほど短い時間であることを確認した.
著者
鶴田 博文 坪内 佑樹
雑誌
インターネットと運用技術シンポジウム論文集
巻号頁・発行日
vol.2021, pp.24-31, 2021-11-18

Web サービスを構成する分散システムは,利用者からの多様な要求に応えるために,システム構成が複雑化している.また,システムへの変更頻度が高くなっており,システム構成の変化が速くなっている.これらの要因により,システムに性能異常が起きた際に,システム管理者が原因の診断に要する時間が増大するため,迅速な原因診断手法が必要である.先行手法として,システムの性能を示す時系列データであるメトリックに機械学習モデルを適用する手法がある.しかし,モデルとして学習に長い時間を要する深層学習が用いられているため,迅速に診断を行うには事前にモデルを学習する必要がある.モデルへの入力となるメトリックの系列数は固定であるため,システム構成が変更されて系列数が増減する場合,新たなモデルを学習しなければならない.これにより,システム構成の変更に迅速に追従した原因診断が難しい.解決方法として,高速に学習できる軽量な機械学習モデルを用いて,異常検知後に学習を行う方法が挙げられる.しかし,軽量な機械学習モデルは一般に深層学習よりも表現力が低いため,それに伴い診断精度が低くなる可能性がある.一方,機械学習モデルの予測の解釈性に関する研究が現在盛んに行われており,これらが原因診断にも有用であることが示されている.本論文では,異常検知後に軽量な機械学習モデルを学習し,解釈手法として注目されているシャープレイ値を用いて原因診断を行う手法を提案する.提案手法は,異常検知後の学習により,システム構成が頻繁に変更される場合でも常に現状の構成を反映した診断ができる.また,シャープレイ値が診断精度を高められるか検討する.実験から,提案手法は原因のメトリックの系列を 44.8% の精度で上位 1 位,82.3% の精度で上位 3 位以内に特定することを示した.
著者
坪内 佑樹 鶴田 博文 古川 雅大
雑誌
インターネットと運用技術シンポジウム論文集
巻号頁・発行日
vol.2020, pp.9-16, 2020-11-26

Web サービスのソフトウェア規模は,長年の機能開発により日々増大しており,ソフトウェア開発者によるソフトウェアの変更が難しくなっている.そこで,変更を容易にするために,一枚岩のアプリケーションを分解して分散させるマイクロサービスアーキテクチャが普及している.しかし,マイクロサービス化によりシステムの構成要素数が増大するにつれて,システムの性能を示す時系列データ形式の指標であるメトリックの個数が増大する.そのため,システムの性能に異常が発生したときに,網羅的にメトリックを目視できず,システム管理者がその異常の原因を診断することが難しくなっている.先行手法では,複数の構成要素を横断したメトリック間の因果関係を推定することにより,システム内の異常の伝播経路を推論する.しかし,診断に利用できるメトリックの個数は限定されるため,より原因に近いメトリックが推論結果から除外される可能性がある.本論文では,性能異常の診断に有用なメトリックを網羅的に抽出するために,観測されたすべてのメトリックの次元数を削減する手法である TSifter を提案する.TSifter は,定常性を有するメトリックを除外したのちに,類似の形状をとるメトリックをクラスタリングすることにより,異常の特徴を強く表すメトリックのみを抽出する.本手法により,メトリック数が膨大であっても,その異常の診断に適した有用なメトリックを都度抽出できる.マイクロサービスのテストベッド環境に故障を注入する実験の結果,TSifter は,ベースラインとなる手法に対して,正確性と次元削減率の指標では同等程度の性能を有しながらも,270 倍以上高速に動作することを確認した.