深層学習におけるバックドア攻撃に対する蒸留を用いた対策とポイズンデータの特定

doi:10.11517/pjsai.JSAI2020.0_4J3GS204

1 0 0 0 OA 深層学習におけるバックドア攻撃に対する蒸留を用いた対策とポイズンデータの特定

著者: 吉田康太藤野毅
出版者: 一般社団法人人工知能学会
雑誌: 人工知能学会全国大会論文集第34回 (2020)
巻号頁・発行日: pp.4J3GS204, 2020 (Released:2020-06-19)

深層学習(DNN)システムにおけるセキュリティ課題として,バックドア攻撃が知られている.画像認識におけるバックドア攻撃では,攻撃者はDNNモデルの学習データセットに,特定位置へのドット付与などの目立たない加工を施し,加工前とは異なるターゲットラベルを設定した少量の異常データ(ポイズンデータ)を混入させる.このデータセットを用いて学習したDNNモデル(バックドアモデル)は,正常な入力に対しては正常に推論を行うが,ポイズンデータと同様の加工が施された入力に対しては,推論結果がターゲットラベルに誘導されてしまう.本稿では,DNNモデルユーザ(防御者)がラベルのないクリーンなデータを収集できるタスクを想定し,蒸留を用いたバックドア攻撃への対策を提案する.バックドアモデルを教師とし,クリーンデータを用いて蒸留することで,ポイズンデータの影響を排除した生徒モデルが得られる.更に,バックドアモデルと生徒モデルそれぞれで学習データセットを分類した時の推論結果の差分から,学習データ5万件の中に100件のみ含まれるポイズンデータの候補を約550件まで絞り込むことができる.

2022-05-09 08:18:01
1 + 2 Twitter

言及状況

外部データベース (DOI)

Google Scholar

Twitter (1 users, 1 posts, 2 favorites)

@h_okumura ・深層学習におけるバックドア攻撃に対する蒸留を用いた対策とポイズンデータの除去 Yoshida(2020) https://t.co/UA63B56H49

2 @hoshitocat @kurana_e

収集済み URL リスト

https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_4J3GS204/_pdf/-char/ja (1)