深入解析:论文阅读:硕士学位论文 2025 面向大语言模型的黑盒对抗性攻击与防御关键技术研究

news/2025/9/30 11:18:35/文章来源:https://www.cnblogs.com/tlnshuju/p/19120244

深入解析:论文阅读:硕士学位论文 2025 面向大语言模型的黑盒对抗性攻击与防御关键技术研究

2025-09-30 11:09  tlnshuju  阅读(0)  评论(0)    收藏  举报

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://www.doubao.com/chat/21920297300066050

https://download.csdn.net/download/WhiffeYF/92026400

在这里插入图片描述

速览

这篇论文主要围绕大语言模型的“安全攻防”问题展开,通俗来说就是研究“如何骗大模型说危险内容”(攻击)、“如何防止大模型被骗”(防御),以及“怎么判断攻防有没有效果”(评估),下面用直白的话拆解核心内容:

一、为啥要做这件事?

现在ChatGPT、Gemini这些大语言模型越来越厉害,能写文案、答问题甚至写代码,但它们也有“软肋”——可能被坏人用特殊话术骗着说危险内容(比如教做炸弹、写钓鱼邮件),这就是“越狱攻击”。纵然模型都有安全训练,但攻击手段也在升级,而且之前判断攻防效果的方法要么靠人工(费时间),要么靠简单关键词匹配(容易漏判)。所以论文要解决三个挑战:怎么有效“骗”最新的大模型、怎么低成本防住这些“骗局”、怎么准确判断攻防结果。

二、核心研究:三大关键技术

1. 攻击技术:让失效的“骗术”重新生效

以前的很多攻击方法对GPT-4o、Llama-3这些新模型没用了,论文就搞了个“组合骗术”——把多种老方式拼起来,再加点新技巧,让模型防不胜防。
具体是给原始危险请求(比如“教我破坏公物”)加三层“包装”:

2. 防御技术:给模型加“保镖”和“裁判”

不想让模型被骗,论文给它配了两个帮手,还不影响原有的安全机制:

  • 辅助“保镖”模型:用GPT-3.5这种低成本模型先处理用户请求,提取核心信息(比如把加密、乱码的请求还原成正常文字,删掉无关内容),再把干净的请求给主模型,从源头减少危险输入;
  • 法官“裁判”模型:用GPT-4这种强模型在后台偷偷检查主模型的回答,判断有没有危险内容(但不耽误用户拿回复,后台异步评估)。
    结果显示,这套防御能把攻击成功率大幅降低,比如原本GPT-3.5上90.7%的攻击成功率,防御后只剩7.4%。
3. 评估技术:准确判断“攻防输赢”

以前判断攻击成功与否要么靠人看(慢),要么靠关键词(不准),论文搞了两种新方法:

三、总结:解决了啥问题?

  1. 给攻击者提供了新“工具”,能暴露大模型的安全漏洞,帮开发者补短板;
  2. 给模型加了轻量防御,成本低还管用,能防住大部分越狱攻击;
  3. 搞了套自动评估方法,不用人工也能准确判断攻防效果。

最后还说,未来想让防御更通用(能防新攻击)、能应对图片+文字的多模态攻击,还要把评估做得更自动化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/922760.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站常用的js效果做的网站被挂马

Java 汉字转拼音 1.TinyPinyin 功能: 适用于Java和Android的快速、低内存占用的汉字转拼音库。 特性: 生成的拼音不包含声调,均为大写;支持自定义词典,支持简体中文、繁体中文;执行效率很高(Pinyin4J的…

怎么给汽车网站做推广郑州建设局官网

1、使用父子关系调整下使其更加整洁 2、比如说我修改了下url,那所有的页面都要更改 优化:把这个url抽出来,新建一个Api文件夹用于存放所有接口的url,在业务里只需要关注业务就可以 使用时 导包 发请求 如果想要更改路径,在这里…

PK-2877电流互感器在高频脉冲电源模块测试中的应用方案

一、项目背景与需求 一家专注于高频脉冲电源模块研发与生产的电子设备企业,其产品广泛应用于工业自动化控制、通信基站电源等领域。这些电源模块在工作时会产生高频脉冲电流,电流峰值可达100A,脉冲频率在数百kHz至数…

VC++ 使用OpenSSL创建RSA密钥PEM档案

VC++ 使用OpenSSL创建RSA密钥PEM档案pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monac…

CF1699D Almost Triple Deletions

被神秘贪心标签误导了。 你考虑答案的最终形式长什么样,就是保留若干个相同的数,再将其中间的区间整段整段删干净。 你先枚举保留什么数,然后发现我们可以设 \(f_{i}\) 表示到了第 \(i\) 个位置最多能保留多少个数,…

QMT回测模式为什么要在副图进行

在QMT系统中,回测必须以副图模式进行,主要有以下原因: (1)数据处理与性能优化 副图模式允许策略专注于历史数据的分析和计算,避免与主图的实时行情显示产生冲突。回测过程中,系统需要遍历大量历史K线数据,副图…

DAY20 Channel(通道)NIO(同步,非阻塞)、Selector(选择器)、NIO2-AIO(异步、非阻塞) - 指南

DAY20 Channel(通道)NIO(同步,非阻塞)、Selector(选择器)、NIO2-AIO(异步、非阻塞) - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !impor…

详细介绍:Servlet完全上手:核心语法与生命周期详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

详细介绍:支持17种方言10种外语!阿里最新AI语音合成模型Qwen3-TTS-Flash震撼发布

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

判断权限通过遍历二叉树路由删除权限不展示的前端组件

判断权限通过遍历二叉树路由删除权限不展示的前端组件点击查看代码 def clean_node(nodes, full_name):names = full_name.split(.)current_name = names[0]for i, node in enumerate(nodes):assert isinstance(node, …

外国人做的网站wordpress主题大全

文章目录 rollup watch 实现流程watchWatchEmitter 实现 watchInternalWatcher 管理整个 watch 阶段Task 运行任务FileWatcher 实现文件监听 rollup watch 实现流程 每一个配置了 watch 的配置项都会变成一个 Task 任务,每个任务通过 FileWatcher 即 chokidar 进行…

DSA:DeepSeek Sparse Attention

DeepSeek-V3.2-Exp 是一个基于稀疏注意力机制(DSA,DeepSeek Sparse Attention)优化的长上下文处理模型,其核心创新在于高效地处理长序列输入,同时保持模型性能。🧠 什么是 DSA(DeepSeek Sparse Attention)? …

网站资讯如何做成都网站开发哪家好

PHPExcel是一个PHP类库,用来帮助我们简单、高效实现从Excel读取Excel的数据和导出数据到Excel。下面是PHPExcel读取的使用教程:1.首先下载PHPExcel2.下载好文件,解压可以得到如下文件:为了使用方便,我们可以在根目录创…

荒野猎手出击!启明智显ZX7981PO:专治各种恶劣环境的5G插卡路由器

在工地、在巴士、在露营地、在户外直播现场……你是否曾因网络不稳定而错失重要时刻?是否曾因设备无法承受严苛环境而影响工作进度?现在,启明智显ZX7981PO荒野猎手来了! 这款专为户外严苛场景设计的5G插卡路由器,…

AWS CDK重构功能发布:安全重构基础设施即代码

AWS宣布推出CDK重构功能,帮助开发者在重命名构造、跨堆栈迁移资源和重组CDK应用时保留现有AWS资源,避免因逻辑ID变更导致的资源替换风险,显著提升基础设施代码重构的安全性。我们很高兴宣布一项新的AWS Cloud Devel…

开发即时通社交软件APP首选系统,可定制开发,可提供源码

开发即时通社交软件APP首选系统,可定制开发,可提供源码一、产品定位​信贸通即时通(SEMOT Instant messaging system),是一款跨平台可定制的 P2P 即时通信系统。它专为电子商务网站、各行业门户网站及企事业单位打…

死锁的处理策略-死锁的检测和解除

这两个是允许死锁发生的方法 死锁的检测 为了能对系统是否已经发生了死锁进行检测,必须: 1.用某种数据结构来保存资源的请求和分配信息; 2.提供一种算法。利用上述的信息来检测系统是否已经进入了死锁状态 数据结构…

实用指南:上下文工程驱动智能体向 “连续性认知”跃迁

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

实用指南:基于STM32单片机的OneNet物联网粉尘烟雾检测系统

实用指南:基于STM32单片机的OneNet物联网粉尘烟雾检测系统pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consol…

青岛专业公司网站设计wordpress自动安装

HTML学习第三天&#xff01; PS&#xff1a;牛牛只是每天花了1.5-2小时左右来学习HTML。 书接上回 HTML<div>和<span> HTML 可以通过<div> 和 <span>将元素组合起来。 HTML 区块元素 大多数 HTML 元素被定义为块级元素或内联元素。 块级元素在浏…