- 著者
-
吉田 康太
藤野 毅
- 出版者
- 一般社団法人 人工知能学会
- 雑誌
- 人工知能学会全国大会論文集 第34回 (2020)
- 巻号頁・発行日
- pp.4J3GS204, 2020 (Released:2020-06-19)
深層学習(DNN)システムにおけるセキュリティ課題として,バックドア攻撃が知られている.画像認識におけるバックドア攻撃では,攻撃者はDNNモデルの学習データセットに,特定位置へのドット付与などの目立たない加工を施し,加工前とは異なるターゲットラベルを設定した少量の異常データ(ポイズンデータ)を混入させる.このデータセットを用いて学習したDNNモデル(バックドアモデル)は,正常な入力に対しては正常に推論を行うが,ポイズンデータと同様の加工が施された入力に対しては,推論結果がターゲットラベルに誘導されてしまう.本稿では,DNNモデルユーザ(防御者)がラベルのないクリーンなデータを収集できるタスクを想定し,蒸留を用いたバックドア攻撃への対策を提案する.バックドアモデルを教師とし,クリーンデータを用いて蒸留することで,ポイズンデータの影響を排除した生徒モデルが得られる.更に,バックドアモデルと生徒モデルそれぞれで学習データセットを分類した時の推論結果の差分から,学習データ5万件の中に100件のみ含まれるポイズンデータの候補を約550件まで絞り込むことができる.