拒绝噪声,提升RAG准确率!RobustMask原理深度拆解,排序模型的正确用法,干货太硬核了!

主要关注LLM、RAG、Agent等AI前沿技术,每天分享业界最新成果和实战案例。

每天一篇大模型Paper来锻炼我们的思维~已经读到这了,别忘了点赞、关注噢

这篇研究成果由武汉大学、耶鲁大学、南洋理工大学的联合团队贡献:

检索增强生成(RAG)正成为大模型落地标配,但神经排序模型(NRM)天生脆弱:

  • 字符级(把appleapp1e
  • 词级(把goodnice
  • 短语级(插入“点击购买”式垃圾片段)

仅需改动≤5%内容,就能把目标文档抬进 Top-10,直接误导下游 LLM 生成错误答案。传统经验防御(对抗训练、TF-IDF 过滤)只能“见招拆招”,面对新攻击立刻失效。


一、用 MLM 的“超能力”做防弹背心

作者把 BERT 预训练时的Masked Language Modeling任务升级为“随机平滑”武器:

  1. 随机掩码:对候选文档重复采样k个位置掩掉,生成海量“残缺副本”。
  2. 成对投票:用轻量级 PairLM 比较“第 K 名 vs 第 K+1 名”谁更相关,所有副本投票得出稳健得分。
  3. 理论认证:利用组合概率给出“无论对手怎么改 ≤R 个词,都挤不进 Top-K”的可证明保证

图 1 直观展示了“掩码→投票→认证”流程:


二、三步走实现“带证书的排序”

步骤关键公式/算法说明
① 平滑模型g(x)=𝔼_H[s(q,M(x,H))]对同一文档掩码n次,取平均相关度
② 成对比较g(x_K) − g(x_{K+1}) ≥ α·β·Δ若差值大于零,则任何改 ≤R 词的对抗样本都超不过第 K 名
③ 计算半径r_radius = max R/T通过蒙特卡洛采样快速估算最大认证比例

算法 2 给出完整伪代码,实际部署仅需1%–2%额外耗时,GPU 并行可再压缩。


三、实验结果:又能打、又轻量

干净数据不掉点

模型MS MARCO MRR@10TREC DL 19 MRR@10
BERT-Base35.287.1
+ RobustMask-30%34.0 (−0.2pp)84.5 (−1.2pp)

认证 robustness 一骑绝尘

指标CertDR (SOTA)RobustMask-30%提升
Top-10 CRQ9.5%58%+6×
平均认证半径4%20%+5×

实战攻击成功率暴降

攻击方法BERT-Base+RobustMask-60%降幅
关键词堆砌92.9%11.9%−81pp
PRADA 词级78.6%33.3%−45pp
PAT 短语级29.3%9.8%−19pp

四、把 RobustMask 塞进你的 RAG

  1. 训练阶段:用 30%–60% 随机掩码继续微调 PairLM,数据量无需增加。
  2. 推理阶段:对 Top-20 候选文档做 100 次掩码采样,缓存g(x)得分,延迟 <10ms。
  3. 安全阈值:若业务要求“Top-5 绝对不可被顶掉”,把认证半径R/T设为 20% 即可覆盖 90% 查询。

RobustMask 首次把“可证明鲁棒”带到生产级神经排序模型:

  • 理论贡献:给出文本排序领域最宽松的 Top-K 认证条件,无需假设攻击词典。
  • 工程价值:几乎不掉点、易插拔、对 RAG 友好,可直接替换现有重排模块。

把 RobustMask 装进你的系统,让攻击者再改 30% 内容也挤不进前十。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1124304.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络分析工具Wireshark系列专栏:19-命令行工具 tshark

在没有图形界面的服务器上,或者当你需要脚本化、自动化网络抓包分析时,Wireshark GUI 就显得臃肿不堪了。这时候,它的命令行兄弟——tshark,便如同一把轻便又锋利的瑞士军刀,随时待命、悄无声息,却威力强大。 本文将带你从0到1,再到实战,全面掌握 tshark 的用法与精髓…

微服务架构下的性能测试策略

一、核心挑战&#xff1a;为什么传统性能测试在微服务中失效&#xff1f;‌微服务架构将单体系统拆解为数十甚至数百个独立部署的服务&#xff0c;这种“去中心化”设计带来了前所未有的测试复杂性&#xff1a;‌调用链路爆炸‌&#xff1a;一个用户请求可能穿越10服务&#xf…

网络分析工具Wireshark系列专栏:20-Wireshark 快捷键大全,文末附备忘录

Wireshark 大家基本上都会使用了,那么如何提高抓包效率呢,快捷键不可少! 如果你已经熟悉 Wireshark 的基本操作,那么掌握快捷键将是你迈入高阶用户的关键一步💡。本篇文章将全面整理 Wireshark 常用及高阶快捷键,配合实际使用场景讲解,让你少点鼠标,多抓问题,一秒定…

如何解决长上下文“太拥挤”难题?一文讲透上下文工程与RAG的演进,收藏这篇就够了!

当年&#xff0c;我们刚开始探索AI落地时&#xff0c;最大的焦虑是模型“不知道”&#xff0c; 那会的痛点集中在&#xff1a; 怎么通过外挂知识库来解决幻觉问题模型的上下文窗口有限&#xff0c;怎么在这最宝贵的窗口中&#xff0c;塞入最有效的信息 尽管当时还没有“上下…

如何用 4 种可靠的方法更换 iPhone

Apple 每年都会发布新版本的 iPhone。升级到新 iPhone 是一种令人兴奋的体验&#xff0c;但转移所有宝贵数据的想法有时会让人感到畏惧。幸运的是&#xff0c;我们准备了 4 种有效的更换 iPhone 的方法&#xff0c;让你可以毫不费力地更换到你的新 iPhone。此外&#xff0c;您还…

收藏!Java开发者零门槛转型大模型:从入门到企业级落地

在大模型技术重构行业生态的今天&#xff0c;“转型AI”成为很多Java开发者的职业必修课。但不少人卡在“入门无门”“不知如何结合现有工作”的困境中&#xff0c;甚至产生“我做了多年Java&#xff0c;转型是不是太晚了”的焦虑。 作为从Java后端平稳过渡到大模型工程化领域的…

收藏!大模型知识蒸馏方向深度调研(小白 程序员入门必备)

知识蒸馏的核心目标&#xff0c;是将大型复杂模型&#xff08;教师模型&#xff09;中蕴含的知识、推理能力与决策逻辑&#xff0c;高效迁移到参数更少、运行更快、部署成本更低的小型模型&#xff08;学生模型&#xff09;中&#xff0c;实现 “轻量模型拥有强能力” 的效果&a…

智能体彻底变天!Agent RL新架构时代正式降临,传统方法正在被淘汰,不想落后的赶紧看!

在探索 Agent RL 技术浪潮之前&#xff0c;我们需先锚定三个根本性认知&#xff1a; 人类的本质&#xff1a;生物界中&#xff0c;人类凭借高等智慧脱颖而出&#xff0c;而制造与使用工具的能力&#xff0c;正是人与动物的核心分野。 大模型的定位&#xff1a;ChatGPT 的横空出…

Qwen3-VL在华为昇腾 NPU 910B4 vLLM-Ascend完整部署指南

Qwen3-VL在华为昇腾 NPU 910B4 vLLM-Ascend完整部署指南 本文档详细说明如何在华为昇腾 NPU (910B4) 上部署和运行 Qwen3-VL-8B-Instruct 多模态大语言模型&#xff0c;基于 vLLM Ascend 推理框架。 目录 系统环境前置要求第一步&#xff1a;安装 CANN 环境第二步&#xff1…

cpolar实现linux内网穿透

安装cpolar工具 通过命令行下载并安装cpolar&#xff1a; curl -L https://www.cpolar.com/static/downloads/install-release-cpolar.sh | sudo bash安装完成后&#xff0c;检查版本号以确认安装成功&#xff1a; cpolar version认证登录 登录cpolar官网&#xff08;https…

程序员必学:Multi-LoRA让大模型微调更高效(附代码)

本文详细介绍了Multi-LoRA&#xff08;低秩适配&#xff09;技术&#xff0c;通过低秩分解原理降低大模型微调的参数量和计算成本。文章从低秩分解的数学原理出发&#xff0c;结合MNIST手写体识别案例&#xff0c;展示了LoRA在模型微调中的应用实践&#xff0c;并分析了其优缺点…

动终端在轨道交通中的使用现状:技术融合与服务创新

目录 1. 研究背景与意义 1.1 轨道交通的数字化转型浪潮 1.2 移动终端的多重角色定位 2. 移动终端在乘客服务中的应用现状 2.1 支付方式的革命性变革 2.2 导航与信息服务的智能化升级 2.3 乘车体验的娱乐化与办公化转变 3. 移动终端在运营管理中的应用现状 3.1 5G专网支…

收藏!年底裁员潮下,传统程序员转型大模型的破局指南

这周部门突然传来裁员消息&#xff0c;HRBP接连找了好几位同事谈话&#xff0c;给出N1补偿后要求当周交接离职。不知不觉间&#xff0c;年底裁员好像成了行业里每年例行的“保留节目”。 如今传统开发岗位的“内卷”早已是公开的常态&#xff0c;不仅各大厂商裁员消息频发&…

ESP-IDF组件编译规则

简单来说就是esp-idf的构建系统会自动编译components &#xff08;名称固定&#xff09;文件夹下面的CMakeLists.txt&#xff0c;通过CMake将组件放到项目中&#xff0c;优先编译我们创建项目中的components 文件夹下的CMakeList.txt&#xff0c;然后在编译esp-idf架构中的comp…

学长亲荐2026专科生必用TOP10 AI论文写作软件测评

学长亲荐2026专科生必用TOP10 AI论文写作软件测评 2026专科生论文写作工具测评&#xff1a;为何需要一份精准推荐 随着人工智能技术的不断发展&#xff0c;AI论文写作软件逐渐成为高校学生&#xff0c;尤其是专科生群体提升写作效率的重要工具。然而&#xff0c;面对市场上琳琅…

如何在没有 iTunes 的情况下备份 iPhone

我可以在没有 iTunes 的情况下将 iPhone 备份到电脑吗&#xff1f;虽然 iTunes 曾经是备份 iPhone 的主要方法&#xff0c;但它并不是 iOS 用户唯一的备份选项。您可以选择多种方便的替代方案来备份 iPhone&#xff0c;无需使用 iTunes。您可以在这里获得更灵活、更人性化的备份…

智能终端在铁路客运服务中的应用现状与发展策略研究

目录 摘要 一、引言&#xff1a;铁路客运的智能化转型浪潮 1.1 背景与意义 1.2 研究范围与方法 二、智能终端在铁路客运服务中的应用现状 2.1 旅客服务领域的应用深化 &#xff08;1&#xff09;全流程无感出行体系 &#xff08;2&#xff09;个性化服务推送系统 &…

导师严选10个AI论文写作软件,专科生毕业论文必备!

导师严选10个AI论文写作软件&#xff0c;专科生毕业论文必备&#xff01; AI工具如何助力论文写作&#xff1f;专科生必看的实用指南 在当前学术写作日益数字化的背景下&#xff0c;AI工具正逐渐成为学生和研究者不可或缺的助手。尤其是对于专科生而言&#xff0c;撰写毕业论文…

基于stm32单片机的地铁售票系统设计(有完整资料)

资料查找方式&#xff1a;特纳斯电子&#xff08;电子校园网&#xff09;&#xff1a;搜索下面编号即可编号&#xff1a;T3062405M设计简介&#xff1a;本设计是基于STM32的地铁售票系统&#xff0c;主要实现以下功能&#xff1a;1.可通过按键选择票种&#xff0c;不同票种价格…

电脑开关机慢?,混合睡眠命令

文件名&#xff1a;mixed_sleep.bat命令行&#xff1a;rundll32.exe powrprof.dll,SetSuspendState 0,1,0进入控制面板→硬件和声音→电源选项→更改计划设置→更改高级电源设置。在“睡眠”选项中找到“允许混合睡眠”&#xff0c;根据需要选择“启用”或“禁用”。笔记本的睡…