Interpretability-Guided Test-Time Adversarial Defense

news/2025/11/10 21:36:02/文章来源:https://www.cnblogs.com/coder-shane/p/19208355

会议/期刊: ECCV 2024

作者:Akshay Kulkarni、Tsui-Wei Weng

代码仓库:https://github.com/Trustworthy-ML-Lab/Interpretability-Guided-Defense


研究背景与动机

一次对抗训练成本远高于一次标准训练的成本,因此有工作设计了不需要训练的防御,即测试阶段防御(test-time defenses)。现有的测试阶段防御方法主要分为两个分支,分别是输入净化(input purification)和模型适应(model adaptation)。现有方法仍有以下局限:

  • 时间开销仍然很大。即使不需要训练,但是跟一次标准前向传播比起来,耗时仍然很多。
  • 在很强的自适应攻击(adaptive attacks)下,防御会失效。自适应攻击是攻击者专门针对防御方法设计的攻击,而不是通用攻击,具有很强的攻击性。
  • 防御方法常常会损害在干净样本上的分类正确率。这个局限不是本论文的研究重点,不过确实存在。

image-20251110205310990

作者发现:(重新理解“攻击”)

  • 攻击会误导模型分类到错误的类别,即将降低真正重要的神经元激活程度,增加错误类别的重要神经元激活程度。
  • 攻击失败后,所有神经元的几乎程度都会降低。因为就算降低后,决策的方向没有改变,所以没有出现分类错误的现象。

针对前两点局限和对攻击的理解,作者首次提出了IG-Defense(test-time interpretability-Guided Defense)。IG-Defense的速度非常快(2X 常规推理时间),同时在自适应攻击下,能有更高的正确率。


核心思想与方法框架

[描述论文的主要思想与方法逻辑。重点讲“作者是怎么想的”,而非具体公式。可以加入文字示意图或伪流程。]

核心思路

image-20251110203352372

  1. 获取每个类别的top-k重要神经元,并得到掩码。重要神经元对应的掩码为1,其余为0。
  2. 前向传播获取软伪标签(soft-pseudo label)。soft是指可以通过超参数\(\tau\)放大logit之间的差异,因此本文中的\(\tau\)取得比较小。除此之外,这个流程就是一次普通的前向传播并经过softmax后,得到每个类别的概率值。将软伪标签与前一步的掩码相乘得到加权掩码。
  3. 对部分网络层进行掩码后再次前向传播。本文实验发现选择靠后的网络层进行掩码效果更好,因此最终采用的是对倒数第二层进行掩码。

细节解释

  1. 重要性排序。每一个模型仅需要使用干净的数据计算一次,相当于建立了一个重要性字典。

image-20251110204430892

  • LO-IR:依次掩码每个神经元,计算掩码前后的logits变化。变化越大,越重要。
    • 效果更好
    • 开销更大
  • CD- IR:利用CLIP,获得文本嵌入和图像嵌入。将两者进行内积后,获得更优的语义参考。与每个神经元经过激活层之后的logits计算相似度,越相似,越重要。
  1. 整个流程高度依赖软伪标签。如果这个伪标签预测错误,那么就会很大程度的影响加权码掩。

作者似乎也发现这个问题了,所以在伪标签这里添加了Randomized Smoothing。简而言之是一个均值为0,方差为1的高斯噪声,然后没有做出过多解释为什么能缓解伪标签预测错误的情况下的问题。(牵强)


实验结果

最大范数\(L_{\infty}\)表示每个像素点能添加的噪声最大值。添加的噪声越大,越能迷糊模型。

image-20251110210416088

image-20251110210432920

image-20251110210537331

通过主实验,可以发现IG-Defense确实有一定提升,同时推理时间很快。不过,有一个防御方法常会出现的问题,即防御会降低在干净数据上的正确率。


不足与潜在改进方向

  • 对软伪标签错误情况下的解释不够清晰
  • Adversarial Examples Are Not Bugs, They Are Features 指出对抗样本本身也是一种特征。它们能具有分类能力,但是很脆弱。因此,本文是否应该适当考虑不重要的神经元,而不是彻底忽略呢?

启发

  • 能否将本文的获取重要神经元的思路(LO-IR和CD-IR)应用到域泛化上呢?
  • 选择出重要神经元的过程仍然比较耗时,此外考虑到不重要的神经元也许也具有分类能力,那么能否不选择出重要神经元,而是借鉴域泛化的思路,让模型多去利用更多的神经元,而不是仅利用几个重要的神经元。类似于获取域不变特征。
  • 如何理解“攻击”?能否将被攻击后的样本认为是一张全新的图像但是具有不同的分布呢?如果可以,可以将对抗攻击转化为模型泛化,能模型能够分类被攻击的样本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/961784.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaWeb04-JUnit

JavaWeb04-JUnit单元测试测试:是一种用来促进鉴定软件的正确性、完整性、安全性和质量的过程。阶段划分:单元测试(白盒)、集成测试(灰盒)、系统测试(黑盒)、验收测试(黑盒)测试方法:白盒测试、黑盒测试及灰…

2025 年 11 月开窗器厂家推荐排行榜,链条开窗器,机芯开窗器,配件开窗器,电动开窗器公司推荐

2025年11月开窗器厂家推荐排行榜:链条开窗器、机芯开窗器、配件开窗器、电动开窗器公司推荐 行业背景分析 随着建筑智能化水平的不断提升,开窗器作为建筑通风系统的重要组成部分,其市场需求呈现稳步增长态势。开窗器…

详细介绍:用户体验就是新SEO:如何同时提升搜索者满意度和搜索排名

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

P6688 可重集 笔记

\(\mathrm{base}^{x}\) 的哈希方式具有可减的性质。

哪款学习机适合小学生用?2025年11月多款主流品牌告诉你如何选

随着双十一购物潮临近,学习机市场的促销大战也愈演愈烈 —— 满减、赠品、限时折扣轮番上阵,叠加原本就处于红海竞争阶段的市场环境:新品牌扎堆涌现,老品牌高频推新,各类宣传噱头更是眼花缭乱,有的标榜 “全科提…

AIGC系统

AIGC系统源码及演示地址:代码地址:https://gitee.com/mom925/aigc-serve-all项目技术后端:Fastapi+Mysql+Redis+ComfyUI+LangChain+LangGraph 前端:Vite+Vue3+Pinia功能:聊天机器人,RAG助手,AI生图/视频 部署:…

noip5

11.1011.10 为什么noip模拟赛从5开始? 前面的不想写(懒)。分了个div1/2 不是你题目难度也不对应啊? div2版 t1 抽象状压。 赛后帮Gon_Tata hack 他的假状压,获得金牌辅助。 首先\(\ldots\) 然后\(\ldots\) 最后\(…

20232320 2024-2025-1 《网络与系统攻防技术》实验四实验报告

1.实验内容 通过对以下内容的实践操作掌握恶意代码的静态分析(文件识别、字符串提取、反汇编)和动态分析(调试、行为监控)以及网络取证技能。 (1)对“rada”样本进行脱壳并找到作者。 (2)逆向分析“crackme”程…

20232326 2025-2026-1 《网络与系统攻防技术》实验四实验报告

一、实验内容与问题回答 1.恶意代码文件类型标识、脱壳与字符串提取 2.使用IDA Pro静态或动态分析crackme1.exe与crakeme2.exe,寻找特定输入,使其能够输出成功信息 3.分析一个自制恶意代码样本rada,并撰写报告 4.取…

#题解#洛谷P3143

[传送门](P3143 [USACO16OPEN] Diamond Collector S - 洛谷) 分析 解决问题只需枚举这样的两个组:使得每组中极差<=k,且两个组不交,求两个组元素 代码实现 #include<bits/stdc++.h> using namespace std; …

STM32环境监测架构开发实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

[GESP202303 二级] 百鸡问题

[GESP202303 二级] 百鸡问题B3836 [GESP202303 二级] 百鸡问题 题目描述 “百鸡问题”是出自我国古代《张丘建算经》的著名数学问题。大意为:“每只公鸡 5 元,每只母鸡 3 元,每 3 只小鸡 1 元;现在有 100 元,买了…

2025 年 11 月码垛机厂家推荐排行榜,多样板材码垛机,倒板码垛机,分拣码垛机,上料码垛机,下料码垛机,码垛机械手,全自动码垛机,龙门码垛机公司推荐

2025年11月码垛机厂家推荐排行榜:智能码垛设备选购权威指南 行业背景与发展趋势 随着工业4.0时代的深入推进,智能制造已成为现代工业发展的核心驱动力。在众多工业自动化设备中,码垛机作为物料搬运和仓储物流的关键…

2025 ICPC成都+南京游记

游记,碎碎念ICPC 2025 终榜,Ag+Ag,成都 rk 50+,南京 rk 70+(加打星)。 主要记录赛场发挥和总结,旅游游记没打算写(雾)。 中间打星了武汉,不过玩太嗨了,赛场集体睡大觉,加上俩队友都是退役选手,铜了,就当…

题解 : P14461

原题链接 数学题。 记多项式系数向量为 \(a=(a_1,a_2,...,a_m)\)。定义线性算子 \(D\) 作用在某系数向量上为 \((D \cdot a)_i=(i+1)a_{i+1}\),\(0 \le i \le m\)。 题目给定递推: \(\begin{cases} F_i(x)=G_{i-1}(x…

MySQL表的增删改查 - 教程

MySQL表的增删改查 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &…

20232420 2025-2026-1 《网络与系统攻防技术》实验四实验报告

1.实验内容恶意代码文件类型标识、脱壳与字符串提取 对提供的rada恶意代码样本,进行文件类型识别,脱壳与字符串提取,以获得rada恶意代码的编写作者。使用IDA Pro静态或动态分析crackme1.exe与crakeme2.exe,寻找特定…

业务用例的概念 - f

系统的边界、有意义的任何事(人、事、物)、参与者与系统交互的 “具体业务场景 / 动作”、用例间关系 做业务用例的核心是梳理“谁(角色)在业务中做什么(动作)、达成什么目标”,用标准化结构呈现业务流程,方便…

P11362 [NOIP2024] 遗失的赋值 题解

P11362 [NOIP2024] 遗失的赋值 题解P11362 [NOIP2024] 遗失的赋值 题解 题目链接 我的博客 前言 笔者在考场上隐约感觉到了什么,感知到T2要比T1简单?但是T2一定是一道数学题,因此笔者使劲推了 \(1\) 个小时的式子,…

2025 年 11 月钢塑复合管厂家推荐排行榜,PSP/衬塑/涂塑/工业/钢衬塑/化工防腐/高强度/缩合式/电磁双热熔钢塑复合管,钢塑复合管件公司推荐

2025 年 11 月钢塑复合管厂家推荐排行榜,PSP/衬塑/涂塑/工业/钢衬塑/化工防腐/高强度/缩合式/电磁双热熔钢塑复合管,钢塑复合管件公司推荐 行业背景与发展趋势 钢塑复合管作为现代工业管道系统的重要组成部分,凭借其…