NLP领域的首次Hard Label黑盒攻击!

文 | 阿毅
编 | 小轶

背景

前段时间已经和大家分享了两篇关于NLP Privacy的文章。今天,我们又来给大家推送优质论文了(公众号学习法)。其实,NLP与其他方向的跨界结合这段时间层出不穷,且都发表到了非常好的顶会上。目前有越来越多的 NLP 研究者开始探索文本对抗攻击这一方向,以 2020 年 ACL 为例,粗略统计有超过 10 篇相关论文。NLP Privacy可谓是NLP研究的下一个风口。

本次给大家介绍一篇文本对抗攻击和NLP结合的文章,目前该文章被AAAI’21接收,且代码已经开源(非常良心[19])!

论文题目:
Generating Natural Language Attacks in a Hard Label Black Box Setting (AAAI’21)

论文链接:
https://arxiv.org/pdf/2012.14956.pdf

Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【0317】下载论文PDF~

论文概要

首先,按照惯例,一句话总结论文:本文在NLP领域中的Hard Label黑盒环境下提出了一种使用遗传算法优化基于决策的攻击策略。具体来说,该策略可以针对文本分类和包含任务生成高质量的对抗样本。本文提出的攻击策略利用基于种群的优化算法,仅通过观察目标模型预测的top标签来设计合理且语义相似的对抗样本。此外,在每次算法优化迭代中都允许进行单词替换,从而最大限度地提高原始文本和对抗文本之间的整体语义相似度。相比其他的攻击策略,本文的方法不依赖使用替代模型或任何种类的训练数据。我们重点关注上述加粗字体的字眼即可知本文的特色在于使用遗传算算法优化基于决策的攻击策略来解决hard label black box中攻击难以实施的问题。

最后本文全部的贡献总结如下:

  • 作者提出了一种新颖的基于决策的攻击策略,并为文本分类任务生成了合理且语义相似的对抗样本。

  • 作者设计的机制可以在不加标签的情况下成功生成对抗性样本而无需掌握任何训练数据知识或替代模型

  • 作者提出的攻击利用了基于种群的优化算法,该过程使原始文本和对抗文本之间的整体语义相似性最大化。

  • 与以前的攻击策略相比,作者的攻击在较高的限制条件下也能实现更高的成功率和更低的干扰率。

Hard Label Black Box Settings [12]: 该设置一般在视觉领域中被研究[13],具体是指攻击者在不掌握模型的信息的情况下只能得到被攻击的机器学习系统提供的有限个输入查询相对应的预测结果。简言之,攻击者只能得到一些(数目很少)hard label的预测输出。本文还指出,这是首次在文本领域探究如何在该设置下设计对抗攻击策略。另外,遗传算法思想应用到对抗攻击当中最早要追溯到2018年,近几年的工作中有不少是关于此类方法的(具体可见[12]中的总结),究其原因是遗传算法非常适合来优化某个目标函数。本文的核心思想是使用种群优化算法优化文中的目标函数来设计的攻击策略。

问题定义

简单来说,本文的目标的是要生成一段和真实语句在语义上很接近的对抗语句,该对抗语句可以导致模型产生错误输出。从优化的角度来开看,我们需要尽可能大的情况下,使得模型产生错误的输出。

详细的严谨定义如下所示:

注意,是不连续的函数,因为模型仅输出硬标签。这也使得等式(2)中的目标函数不连续并且难以优化。

攻击策略

如图所示,本文设计了一个三步走的攻击策略:初始化、缩小搜索空间、种群优化。接下来我们详细介绍每个步骤设计的初衷和具体细节:

初始化

作者为了生成一个与原始输入在语义上相似的对抗性示例,限制了每个单词在反向拟合嵌入空间中的前50个同义词的替换[14]。然后,作者过滤掉词性标签与原始单词不同的同义词,这样可以确保同义词符合上下文的语境并且句子在语法上是正确的,即原文中算法1中的3-7行。

缩小搜索空间

因为作者使用X*替换很多的同义词,因此整体算法的搜索空间就会变得很大,这会增加优化算法的时间开销并会因为收敛很慢而导致很难寻到最优值。因此,在此步骤中,作者通过将一些同义词替换为各自的原始单词来减少中的替换计数。以下步骤用于减少中的替换计数:

  • 给定初始化样本,其中表示初始化期间替换的同义词。每个同义词被其原始的代替(原文算法1,第8-10行)。

  • 不符合对抗样本标准的文本将被过滤掉。从剩余的文本样本中,根据之间的语义相似性对每个替换项(带有)进行评分。所有替换项均基于该评分以降序排序(原文算法1,第11-13行)。

  • 中的同义词将按照步骤2中确定的顺序用其原始对应语句替换回去,直到满足对抗标准(原文算法1,第14-17行)。

对抗性样本的搜索空间:虚线表示所有可能的组合。粗线显示所选的组合,该组合与X的语义相似度最高,并且满足对抗标准

这可以看作是将初始样本移到目标模型的决策边界附近。此过程非常有效,因为它不仅可以加快优化算法的速度,而且还可以防止其收敛到局部最优。

种群优化算法

作者使用种群优化算法来优化目标函数(2),其中最重要的两个步骤是:crossover(打篮球的小伙伴肯定异常兴奋啦)和mutation。该算法的一般步骤如下:

  • 初始化:使用遗传算法从任意一组初始候选者开始寻优。

  • 选择:使用fitness函数评估每个候选人。根据他们的fitness值选择两个候选人作为parents。

  • Crossover:选定的parents经过Crossover以产生下一组候选者。

  • Mutation:对新的候选者进行变异以确保多样性并更好地探索搜索空间。重复步骤2-4进行特定次数的迭代。

之所以使用使用遗传算法是因为它直接适用于离散的输入空间。此外,与其他基于整体的优化方法相比,遗传算法更直观,更易于应用。本文与其他相似方法[15]不同,作者是将两个文本序列之间的语义相似性最大化。接下来重点解析选择、crossover和mutation操作。

Mutation

Mutation操作实际上就是为了挑选出高质量的对抗样本作为遗传算法的样本去进行变异(类似于细胞分裂),**那么问题来了:什么是高质量的对抗样本呢?**作者在文中给出了两个公式:

函数表示相似度判断函数,其作用是为了判断对抗样本和真实样本的语义相似度。在上述式子中就是我们需要挑选进行变异的样本,是全部对抗样本,是正常样本,因此上述因子意味着所挑选的不仅符合对抗样本的要求且相似度比初始化的对抗样本要大,因此我们只需要优化以下目标函数即可获得高质量的对抗样本:

选择

选择操作一开始是随机初始化的,但是随着上述Mutation操作的完成,选择就是一个技巧活了,如何选择两个候选者成为parents至关重要。作者把对抗样本与真实样本的语义相似度作为fitness函数,然后使用采样函数来选择parents。具体来说,,其中是从上述Mutation操作中所挑选的candidate中按一定比例采样得到的,因此这样可以得到相似度非常高的两个对抗样本作为parents:

Crossover

Crossover操作,顾名思义,就是进行交叉重复操作。具体来说,给定(即parents),然后从中为候选单词的每个位置随机选择一个单词,以此交叉重复多次,以确保产生足够多的搜索空间中的各类组合。此操作的目的是将生成多种满足对抗样本标准的新候选文本序列。具体公式如下:

总结:该遗传算法最主要的目的就是在文本是离散的条件下依然可以通过迭代优化选择出所有对抗样本中语义相似度最高的那些高质量对抗样本,因此该算法可以找到与真实样本极其接近的所有对抗样本。

结论

接下来,我们对文章进行优缺点总结。

优点:

  1. 首次在NLP领域中研究Hard Label 黑盒环境下的对抗攻击(话题很新,且该领域慢慢在火起来);

  2. 实验非常充分,baselines也很丰富(实验部分此次不在推文中介绍,感兴趣的同学可以自行去查看原文);

  3. 使用遗传算法优化的基于决策的黑盒攻击恰好克服了文本离散的数据特点,且可以生成语义相似度很高的对抗样本

缺点:

  1. 该对抗攻击的细粒度不够,更加探究更加细粒度的对抗攻击;

  2. 该对抗攻击非常依赖于Hard Label产生的输出的质量,不然也就无法寻优出高质量的对抗样本;

  3. 遗传算法的搜索效率仍然是一个挑战,因此如何高效地进行搜索可能是该类方法的一个瓶颈。

注意:本文部分内容参考了其他网站或者博客的总结,均在此表示感谢,并在引用处[16-18]引用,希望大家乐于分享知识,共同进步!

萌屋作者:阿毅

目前在澳洲读PhD,方向是Security and Privacy in Machine Learning,前腾讯天衍实验室实习生。一个热爱篮球但打球很菜的阳光小伙子,也很喜欢爬山。期待和对ML\FL\NLP安全和隐私问题感兴趣的小伙伴一起畅谈未来(微信号: Sea_AAo)

作品推荐

  1. 我拿模型当朋友,模型却想泄漏我的隐私?

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1].Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.

[2].Akhtar N, Mian A. Threat of adversarial attacks on deep learning in computer vision: A survey[J]. IEEE Access, 2018, 6: 14410-14430.

[3].Ribeiro M T, Wu T, Guestrin C, et al. Beyond accuracy: Behavioral testing of NLP models with CheckList[J]. arXiv preprint arXiv:2005.04118, 2020.

[4].Tramèr F, Kurakin A, Papernot N, et al. Ensemble adversarial training: Attacks and defenses[J]. arXiv preprint arXiv:1705.07204, 2017.

[5].Moosavi-Dezfooli S M, Fawzi A, Frossard P. Deepfool: a simple and accurate method to fool deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2574-2582.

[6].Papernot N, McDaniel P, Goodfellow I. Transferability in machine learning: from phenomena to black-box attacks using adversarial samples[J]. arXiv preprint arXiv:1605.07277, 2016.

[7].Papernot N, McDaniel P, Goodfellow I, et al. Practical black-box attacks against machine learning[C]//Proceedings of the 2017 ACM on Asia conference on computer and communications security. 2017: 506-519.

[8].Lu J, Issaranon T, Forsyth D. Safetynet: Detecting and rejecting adversarial examples robustly[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 446-454.

[9].Chen S, He Z, Sun C, et al. Universal adversarial attack on attention and the resulting dataset damagenet[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.

[10].https://www.secrss.com/articles/25644

[11].Zhang W E, Sheng Q Z, Alhazmi A, et al. Adversarial attacks on deep-learning models in natural language processing: A survey[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2020, 11(3): 1-41.

[12].Cheng M, Le T, Chen P Y, et al. Query-efficient hard-label black-box attack: An optimization-based approach[J]. arXiv preprint arXiv:1807.04457, 2018.

[13].Brendel W, Rauber J, Bethge M. Decision-based adversarial attacks: Reliable attacks against black-box machine learning models[J]. arXiv preprint arXiv:1712.04248, 2017.

[14].Mrkšić N, Séaghdha D O, Thomson B, et al. Counter-fitting word vectors to linguistic constraints[J]. arXiv preprint arXiv:1603.00892, 2016.

[15].Alzantot M, Sharma Y, Elgohary A, et al. Generating natural language adversarial examples[J]. arXiv preprint arXiv:1804.07998, 2018.

[16].https://www.secrss.com/articles/25644

[17].https://www.jiqizhixin.com/articles/2019-06-10-6

[18].https://www.aminer.cn/research_report/5f50600e3c99ce0ab7bcb539

[19].https://www.github.com/RishabhMaheshwary/hard-label-attack

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478876.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 - ACL2020 | 利用知识库嵌入改进多跳 KGQA

论文笔记整理:吴畏,东南大学硕士研究生。来源: ACL 2020论文地址: https://www.aclweb.org/anthology/2020.acl-main.412.pdf开源代码: https://github.com/malllabiisc/EmbedKGQA动机在多跳KGQA中,系统需要对KG的多个边缘执行推理以推断出正…

Android官方开发文档Training系列课程中文版:管理设备的睡眠状态

原文地址:http://android.xsoftlab.net/training/scheduling/index.html 引言 当Android设备处于闲置状态时,它的屏幕首先会变暗,接着会关闭屏幕,最后会将CPU关闭。这些举措可以防止设备的电量迅速被耗尽。但是当APP需要的话&am…

解决pip安装报错:is not a supported wheel on this platform

解决pip安装报错:is not a supported wheel on this platform:https://blog.csdn.net/sty945/article/details/105200436/ 原因1 你下载安装的包不是当前平台所支持的 原因2 你下载的包,不符合你所在的平台的安装whl的名称规范,所…

MCI:移动持续集成在大众点评的实践

一、背景 美团是全球最大的互联网生活服务平台,为3.2亿活跃用户和500多万的优质商户提供一个连接线上与线下的电子商务服务。秉承“帮大家吃得更好,生活更好”的使命,我们的业务覆盖了超过200个品类和2800个城区县网络,在餐饮、外…

LeetCode 260. 只出现一次的数字 III(位运算)

1. 题目 给定一个整数数组 nums,其中恰好有两个元素只出现一次,其余所有元素均出现两次。 找出只出现一次的那两个元素。 示例 :输入: [1,2,1,3,2,5] 输出: [3,5]注意: 结果输出的顺序并不重要,对于上面的例子, [5,…

没有什么多模态任务是一层Transformer解决不了的!

文 | 子龙曾几何时,多模态预训练已经不是一个新的话题,各大顶会诸多论文仿佛搭上Visual和BERT,就能成功paper1,VisualBERT、ViLBERT层出不穷,傻傻分不清楚......这些年NLPer在跨界上忙活的不亦乐乎,提取视觉…

论文浅尝 - KDD2020 | 真实世界超图的结构模式和生成模型

论文笔记整理:毕祯,浙江大学硕士,研究方向:知识图谱、自然语言处理。链接:https://arxiv.org/abs/2006.07060动机图已被用作对人或物体之间的成对关系建模的强大工具。而超图是更广泛概念的一种特殊类型,其…

文档智能综述

1 万字综述:行业知识图谱构建最新进展 微信公众号链接:https://mp.weixin.qq.com/s/iVIoaZxhS1EyC2etRnBf4Q 2 高翔:智能文档处理与办公自动化 微信公众号链接:https://mp.weixin.qq.com/s/M6iv_NAnhibT36Y27BSSeQ 3 迪奥NLP丨企…

Android官方开发文档Training系列课程中文版:APP的内存管理

写在开头的话: 如果有同学对Android性能比较关注的,可以阅读这篇文章:Android性能优化建议 原文地址:http://android.xsoftlab.net/training/articles/memory.html 随机存储器(RAM)在任何运行环境中都是一块非常重要的区域&#…

LeetCode 1122. 数组的相对排序

1. 题目 给你两个数组,arr1 和 arr2, arr2 中的元素各不相同 arr2 中的每个元素都出现在 arr1 中 对 arr1 中的元素进行排序,使 arr1 中项的相对顺序和 arr2 中的相对顺序相同。未在 arr2 中出现过的元素需要按照升序放在 arr1 的末尾。 示…

老板让我用少量样本 finetune 模型,我还有救吗?急急急,在线等!

文 | ????????????????编 | 王苏今天介绍的是一篇 NAACL21 新鲜出炉的工作!NAACL 上周四出的结果,这篇工作本周一上传 arxiv,周二被王苏小哥哥发现,周三拜读了一下,今天就来和大家分享啦!&…

如何基于深度学习实现图像的智能审核?

背景 美团每天有百万级的图片产生量,运营人员负责相关图片的内容审核,对涉及法律风险及不符合平台规定的图片进行删除操作。由于图片数量巨大,人工审核耗时耗力且审核能力有限。另外对于不同审核人员来讲,审核标准难以统一且实时变…

论文浅尝 - WSDM2020 | QAnswer KG: 基于RDF数据设计一个可移植问答系统

论文笔记整理:谭亦鸣,东南大学博士。来源:WSDM 2020链接:https://link.springer.com/chapter/10.1007/978-3-030-49461-2_251.介绍知识图谱问答(KGQA)系统的目标是:基于自然语言问题,从RDF数据集中抽取对应…

Android官方开发文档Training系列课程中文版:性能优化建议

原文地址:http://android.xsoftlab.net/training/articles/perf-tips.html 本篇文章主要介绍那些可以提升整体性能的微小优化点。它与那些能突然改观性能效果的优化手段并不属于同一类。选择正确的算法与数据结构必然是我们的第一总则,但是这不是我们这…

打破场景边界,PDFlux助你多领域表格提取

打破场景边界,PDFlux助你多领域表格提取:https://zhuanlan.zhihu.com/p/70092369

LeetCode 868. 二进制间距(位运算)

1. 解题 给定一个正整数 N,找到并返回 N 的二进制表示中两个连续的 1 之间的最长距离。 如果没有两个连续的 1,返回 0 。 输入:22 输出:2 解释: 22 的二进制是 0b10110 。 在 22 的二进制表示中,有三个 …

Kotlin代码检查在美团的探索与实践

背景 Kotlin有着诸多的特性,比如空指针安全、方法扩展、支持函数式编程、丰富的语法糖等。这些特性使得Kotlin的代码比Java简洁优雅许多,提高了代码的可读性和可维护性,节省了开发时间,提高了开发效率。这也是我们团队转向Kotlin的…

推荐几个出论文的好方向!

如果你准备发AI方向的论文,或准备从事科研工作或已在企业中担任AI算法岗的工作。那么我真诚的向大家推荐,贪心学院《机器学习高阶训练营》,目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解,四个模块…

开源开放 | 疾病科室、心血管系统疾病知识图谱发布,助力电子病历系统建设...

本文转载自公众号:OMAHA联盟。 资源发布OMAHA已建立“七巧板”医学术语集、“汇知”医学知识图谱、HiTA ICD编码服务、白皮书等资源,将于每月发布其中的一项或多项资源,敬请关注!2009年,《中共中央国务院关于深化医药…

Android官方开发文档Training系列课程中文版:布局性能优化之布局层级优化

原文地址:http://android.xsoftlab.net/training/improving-layouts/index.html 引言 布局是直接影响用户体验的关键部分。如果实现的不好,那么布局很有可能会导致内存的紧张。Android的SDK包含的一些工具可以用来检查布局性能上的问题。结合本章的课程…