著者
坪内 佑樹 古川 雅大 松本 亮介
雑誌
インターネットと運用技術シンポジウム論文集
巻号頁・発行日
vol.2019, pp.64-71, 2019-11-28

Web サービスの利用者による多様な要求に応えるために,Web サービスを構成する分散システムが複雑化している.その結果,システム管理者が分散システム内のプロセス間の依存関係を把握することが難しくなる.そのような状況では,システムを変更するときに,変更の影響範囲を特定できず,想定よりも大きな障害につながることがある.そこで,システム管理者にとって未知のプロセス間の依存関係を自動で追跡することが重要となる.先行手法は,ネットワーク接続を終端するホスト上で Linux のパケットフィルタを利用してトランスポート接続を検知することにより依存関係を発見する.しかし,Linux カーネル内のパケット処理に追加の処理を加えることになるため,アプリケーションの通信に追加の遅延を与えることになる.そこで,本論文では,サーバ用途で広く利用されている Linux を前提に,TCP/UDP 接続の終端点であるネットワークソケットに含まれる接続情報を監視することにより,未知のプロセス間の依存関係を網羅的に追跡可能なアーキテクチャを提案する.このアーキテクチャにより,プロセスが Linux カーネルの TCP/UDP 通信機構を利用する限り,未知のプロセスの依存を見逃さずに追跡できる.また,接続情報の監視処理は,ソケットがすでに保持する接続情報を読み取るだけとなり,アプリケーションの通信処理とは独立するため,アプリケーションの通信遅延に影響を与えない.最後に,先行手法との比較実験を行い,応答遅延オーバーヘッドとリソース負荷を評価した結果,応答遅延オーバーヘッドを 13-20%,リソース負荷を 43.5% 低減させていることを確認した.
著者
坪内 佑樹 脇坂 朝人 濱田 健 松木 雅幸 小林 隆浩 阿部 博 松本 亮介
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.62, no.3, pp.818-828, 2021-03-15

クラウド上のシステムの大規模化にともない,CPU利用率などのシステムの各構成要素の状態を把握するために,大量の時系列データを保存する必要がある.そのために,時系列データを保存するデータベースにはデータの挿入処理とデータ保存の効率化と挿入スケールアウト性の向上が求められる.既存技術は,挿入スケールアウト性を高めるために広く利用されているディスクベースの分散KVS(Key Value Store)を利用する.しかし,ランダムI/Oが低速なディスクへ書き込むという前提があることから,メモリ上でキーを整列させながら挿入可能な平衡木が利用されるが,キーの挿入時に系列数に対して対数時間を要する.すべてのデータをメモリ上に保持するメモリベースKVSであれば,ハッシュ表に基づくデータ構造の利用により定数時間の挿入が可能となる.しかし,メモリは容量単価が大きいことから,データを長期間保存するには不向きである.本論文では,メモリベースKVSとディスクベースKVSを階層化する高性能な時系列データベースHeteroTSDBを提案する.HeteroTSDBは,メモリベースKVS上に系列名をキーとして,系列本体をバリューとしたハッシュ表を構成することにより,系列数に対して定数時間でデータを挿入する.加えて,系列を格納するキーにTTL(Time To Live)によるタイマを設定し,古くなったデータを系列単位でまとめてディスクベースKVSへ移動させることにより,データ保存のための容量単価を低減させている.実験の結果,ディスクベースKVSを利用した既存の時系列データベースであるKairosDBと比較し,HeteroTSDBは3.98倍の挿入スループット向上を達成した.
著者
坪内 佑樹 青山 真也
雑誌
インターネットと運用技術シンポジウム論文集
巻号頁・発行日
vol.2021, pp.63-70, 2021-11-18

クラウド上の大規模なアプリケーションの構成は,機能単位で独立して変更可能とするために,単一の巨大なアプリケーションを分解して分散協調させるマイクロサービスアーキテクチャへと変遷している.アプリケーション構成の分散化により,構成要素数が増大し,構成要素間の依存関係が複雑化することから,システム管理者の認知負荷が高まっている.認知負荷を低減するために,システム管理者の経験と直感が要求される異常検知と異常の原因分析を自動化するための研究が盛んである.これらの研究では,データ分析手法を実験により評価する際に,正常データと異常データを含む運用データが必要となる.既存の公開されているデータセットは,その静的な性質故に,データセットに含まれる異常パターンの数は限られる.本研究では,多様な異常のパターンに対して異常検知・原因分析手法を評価するために,データセットを動的に生成するためのシステムである Meltria の設計基準を提案する.我々が提案する設計基準は,(1) 運用データに異常を含めるために,多様な故障注入を実行し,データを採取するための一連の手続きを実行可能なスケジューリング,および,(2) 故障注入の影響と想定外の異常のそれぞれの有無をデータセットにラベル付けするための検証の自動化である.Meltria を用いて,故障注入の種類やパラメータを変更することにより,様々な異常のパターンを含んだデータセットを生成できる.実験の結果,生成されたデータセットに対する (2) の基準に基づいた検証手法の正解率は 85% となった.
著者
松本 亮介 坪内 佑樹
雑誌
研究報告コンピュータセキュリティ(CSEC) (ISSN:21888655)
巻号頁・発行日
vol.2020-CSEC-89, no.11, pp.1-6, 2020-05-07

単一の OS 環境に複数のテナントを配置し,リソースを共有するようなマルチテナント環境において,一般的に各テナント間での権限分離はプロセスのオーナやパーミッション情報を利用する.一方で,Web ホスティングサービスをはじめ,Web サービスにおいても,コンテナによって計算処理を担うプロセスの権限分離が普及している状況において,データ処理に関しては,複数の異なるオーナのプロセスがデータベースのようなミドルウェアをネットワークを介して通信し共有することで実現されるケースがある.そのようなシステム構成において,単一の OS 内でのプロセス間は権限分離されていても,ネットワークを介した分散システムと捉えたときには,OS 側の権限分離とは独立してユーザとパスワードによりミドルウェアの認証を行うことになる.すなわち,アプリケーションやシステムの脆弱性によって,特定のプロセスが他のオーナのプロセスのユーザとパスワードを取得できた場合,容易に通信先ミドルウェアの情報にアクセスできる.本研究では,Linux のプロセスのオーナ情報を TCP を介したミドルウェアの認証に付与し,特定のオーナからのみミドルウェアの認証を可能とする透過的な TCP を介した権限分離手法の設計について述べる.
著者
鶴田 博文 坪内 佑樹
雑誌
インターネットと運用技術シンポジウム論文集
巻号頁・発行日
vol.2021, pp.24-31, 2021-11-18

Web サービスを構成する分散システムは,利用者からの多様な要求に応えるために,システム構成が複雑化している.また,システムへの変更頻度が高くなっており,システム構成の変化が速くなっている.これらの要因により,システムに性能異常が起きた際に,システム管理者が原因の診断に要する時間が増大するため,迅速な原因診断手法が必要である.先行手法として,システムの性能を示す時系列データであるメトリックに機械学習モデルを適用する手法がある.しかし,モデルとして学習に長い時間を要する深層学習が用いられているため,迅速に診断を行うには事前にモデルを学習する必要がある.モデルへの入力となるメトリックの系列数は固定であるため,システム構成が変更されて系列数が増減する場合,新たなモデルを学習しなければならない.これにより,システム構成の変更に迅速に追従した原因診断が難しい.解決方法として,高速に学習できる軽量な機械学習モデルを用いて,異常検知後に学習を行う方法が挙げられる.しかし,軽量な機械学習モデルは一般に深層学習よりも表現力が低いため,それに伴い診断精度が低くなる可能性がある.一方,機械学習モデルの予測の解釈性に関する研究が現在盛んに行われており,これらが原因診断にも有用であることが示されている.本論文では,異常検知後に軽量な機械学習モデルを学習し,解釈手法として注目されているシャープレイ値を用いて原因診断を行う手法を提案する.提案手法は,異常検知後の学習により,システム構成が頻繁に変更される場合でも常に現状の構成を反映した診断ができる.また,シャープレイ値が診断精度を高められるか検討する.実験から,提案手法は原因のメトリックの系列を 44.8% の精度で上位 1 位,82.3% の精度で上位 3 位以内に特定することを示した.
著者
坪内 佑樹 鶴田 博文 古川 雅大
雑誌
インターネットと運用技術シンポジウム論文集
巻号頁・発行日
vol.2020, pp.9-16, 2020-11-26

Web サービスのソフトウェア規模は,長年の機能開発により日々増大しており,ソフトウェア開発者によるソフトウェアの変更が難しくなっている.そこで,変更を容易にするために,一枚岩のアプリケーションを分解して分散させるマイクロサービスアーキテクチャが普及している.しかし,マイクロサービス化によりシステムの構成要素数が増大するにつれて,システムの性能を示す時系列データ形式の指標であるメトリックの個数が増大する.そのため,システムの性能に異常が発生したときに,網羅的にメトリックを目視できず,システム管理者がその異常の原因を診断することが難しくなっている.先行手法では,複数の構成要素を横断したメトリック間の因果関係を推定することにより,システム内の異常の伝播経路を推論する.しかし,診断に利用できるメトリックの個数は限定されるため,より原因に近いメトリックが推論結果から除外される可能性がある.本論文では,性能異常の診断に有用なメトリックを網羅的に抽出するために,観測されたすべてのメトリックの次元数を削減する手法である TSifter を提案する.TSifter は,定常性を有するメトリックを除外したのちに,類似の形状をとるメトリックをクラスタリングすることにより,異常の特徴を強く表すメトリックのみを抽出する.本手法により,メトリック数が膨大であっても,その異常の診断に適した有用なメトリックを都度抽出できる.マイクロサービスのテストベッド環境に故障を注入する実験の結果,TSifter は,ベースラインとなる手法に対して,正確性と次元削減率の指標では同等程度の性能を有しながらも,270 倍以上高速に動作することを確認した.
著者
坪内 佑樹 置田 真生 伊野 文彦 山川 聡 柏木 岳彦 萩原 兼一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-133, no.31, pp.1-7, 2012-03-19

本稿では,重複排除ストレージのための SHA(Secure Hash Algorithm)-1 計算の高速化を目的として,SSE(Streaming SIMD Extensions) 命令に基づくスループット向上手法を提案する.提案手法は,異なる入力ファイルに対する処理が独立であることに着目し,SSE 命令によるベクトル処理および OpenMP によるマルチスレッド処理を併用する.実験では,単一ファイルを並列処理する既存手法と比較して 1.5 倍の速度向上を得ている.このときの実行効率は 93% に達し,計測したスループット 80 Gbps は PCI Express の実効帯域幅を超えている.したがって,重複排除ストレージにおける性能ボトルネックを除去できていると考える.