NEFTune:加入噪声的嵌入提升指令微调效果

摘要

我们发现,通过一种简单的数据增强方法,可以显著提升语言模型的微调效果。NEFTune 在训练过程中向嵌入向量添加噪声。在使用 Alpaca 对 LLaMA-2-7B 进行标准微调时,其在 AlpacaEval 上的表现为 29.79%,而使用带噪嵌入后则上升至 64.69%。NEFTune 在多个现代指令数据集上也优于强基线:使用 Evol-Instruct 微调的模型提升了 10%,使用 ShareGPT 提升了 8%,使用 OpenPlatypus 同样提升了 8%。即使是如 LLaMA-2-Chat 这类经过 RLHF 进一步优化的强大模型,也能从 NEFTune 的进一步训练中受益。

1 引言

大型语言模型(LLM)遵循详细指令的能力,是其实用性的核心。生成式语言模型通常在原始网页数据上预训练,随后在一小部分经过精心筛选的指令数据上进行微调。指令微调是驯服 LLM 能力的关键,而模型的实用性在很大程度上取决于我们如何最大化地利用这些有限的指令数据集。

本文提出,在微调的前向传播过程中,向训练数据的嵌入向量添加随机噪声。我们展示了这一简单技巧能够显著提升指令微调的效果,且无需额外计算或数据成本。Noisy Embedding Instruction Fine Tuning(NEFTune)虽然方法简单,但对下游对话质量有着显著影响。当一个原始 LLM(如 LLaMA-2-7B)在带噪嵌入下进行微调,其在 AlpacaEval 上的表现从 29.8% 提升至 64.7%(见图 1)——实现了约 35 个百分点的惊人提升(Touvron et al., 2023b;Dubois et al.,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1123044.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开题报告写到崩溃?百考通AI开题助手3分钟生成逻辑严密、导师认可的高质量框架

面对开题报告,你是否也这样? ——选题定了,却不知如何展开研究背景; ——问题意识模糊,说不清“为什么值得研究”; ——文献综述无从下手,理论基础一片空白; ——研究方法写得像说明…

航天任务指令生成:Qwen3Guard-Gen-8B确保术语绝对精确

航天任务指令生成:Qwen3Guard-Gen-8B确保术语绝对精确 在航天任务控制中心,一条看似简单的指令——“启动轨道重启程序”——可能隐藏着致命歧义。是进入新轨道?还是执行紧急变轨?抑或是故障恢复操作?在地面与卫星通信…

Qwen3Guard-Gen-8B模型部署教程:一键推理.sh脚本使用详解

Qwen3Guard-Gen-8B 模型部署与安全治理实践 在生成式 AI 应用迅速渗透各行各业的今天,内容安全已成为悬在开发者头顶的“达摩克利斯之剑”。一个看似无害的对话助手,可能因一次不当输出引发舆论危机;一款面向全球用户的社交产品,也…

谷歌亮剑“Darcula”:一场针对安卓钓鱼黑产的法律与技术双重围剿

2025年12月17日,美国加州北区联邦法院迎来一纸不同寻常的诉状——科技巨头谷歌正式起诉一个名为“Darcula”的黑客组织及其关联个人,指控其长期利用安卓生态系统实施大规模网络钓鱼攻击。这不仅是谷歌近年来罕见的直接法律出击,更标志着全球科…

CGPO:完美融合—用评审混合机制重塑RLHF

强化学习人类反馈(Reinforcement learning from human feedback,RLHF)已成为微调大语言模型(LLM)的主流方法。然而,RLHF在多任务学习(MTL)中存在局限性,原因在于奖励操纵(reward hacking)问题以及极端的多目标优化(即多个甚至有时相互冲突的目标之间的权衡)带来的…

秒级失守!谷歌账户钓鱼进入“自动化收割”时代,你的Gmail还安全吗?

凌晨3点,程序员李明被手机震动惊醒。他收到一条来自“Google安全中心”的推送:“检测到您的账户在莫斯科有异常登录尝试,请立即验证身份。”页面UI与他每天使用的Gmail设置页如出一辙——熟悉的Material Design风格、蓝色主按钮、底部谷歌版权…

ollydbg下载及安装系统学习:配套工具推荐

从零构建逆向分析环境:OllyDbg 安装与工具链实战指南 你是不是也曾在搜索“ollydbg下载”的时候,被一堆广告、捆绑软件和来路不明的压缩包搞得头大?点进去不是弹窗就是自动安装垃圾程序,甚至还有人把木马伪装成调试器……这背后其…

AI识别自动化:无需编码的工作流搭建教程

AI识别自动化:无需编码的工作流搭建教程 作为一名企业业务人员,你是否遇到过这样的困境:明明知道AI识别技术能大幅提升业务流程效率,却因为IT部门资源紧张而迟迟无法落地?本文将介绍如何通过可视化工具搭建AI识别工作…

退休返聘合同:Qwen3Guard-Gen-8B区分劳务与劳动关系

Qwen3Guard-Gen-8B:用语义理解破解“退休返聘”用工风险 在企业人力资源管理中,一个看似简单的合同条款可能暗藏法律雷区。比如这样一段话:“乙方为退休人员,甲方按月支付劳务报酬,乙方需按时打卡上班并接受绩效考核。…

高校教学推荐:Proteus下载与多学科仿真应用

用Proteus做实验,像搭积木一样学电子——高校仿真教学的“神兵利器”你有没有过这样的经历?讲《单片机原理》时,学生问:“老师,我代码没错,但LED为啥不亮?”你心里一紧:是电源接反了…

保险精算报告生成:Qwen3Guard-Gen-8B遵循行业统计标准

保险精算报告生成:Qwen3Guard-Gen-8B遵循行业统计标准 在金融监管日益严格的今天,自动化系统生成的每一份保险精算报告都可能成为合规审查的焦点。一个看似客观的数据陈述——比如“某地区人群死亡率偏高”——如果缺乏恰当语境,就可能被解读…

STM32CubeMX使用教程:一文说清RCC时钟配置核心要点

STM32时钟配置实战指南:从CubeMX到稳定运行的每一步 你有没有遇到过这样的情况——代码烧录成功,单片机却“纹丝不动”?调试器一接上,发现程序卡在 SystemClock_Config() 里。别急,这大概率不是你的代码出了问题&…

Proteus元件对照表图解说明:初学者必备认知工具

从符号到实物:一张图看懂Proteus元件对照关系(初学者避坑指南)你有没有遇到过这种情况——在Proteus里画好电路,点了仿真却毫无反应?数码管不亮、单片机不跑程序、电源一接就“冒烟”……结果排查半天,发现…

为什么顶尖工程师都在用VSCode做多模型调试?真相令人震惊

第一章:VSCode多模型调试的崛起随着现代软件系统日益复杂,开发者常需同时运行和调试多个相互依赖的服务或模型。VSCode 凭借其强大的扩展生态与灵活的调试配置,逐渐成为支持多模型并行调试的首选工具。通过集成 launch.json 配置文件&#xf…

动漫交流与推荐平台系统

动漫交流与推荐平台 目录 基于springboot vue动漫交流与推荐平台系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue动漫交流与推荐平台系统 一、…

万物识别模型压缩:在有限资源下的高效部署方案

万物识别模型压缩:在有限资源下的高效部署方案 作为一名移动端开发者,你是否遇到过这样的困境:想要在App中集成强大的物体识别功能,却发现移动设备的计算资源和内存容量捉襟见肘?本文将带你了解如何在有限资源下&#…

Claude在VSCode中总是崩溃?90%开发者忽略的4个性能陷阱

第一章:Claude在VSCode中总是崩溃?90%开发者忽略的4个性能陷阱许多开发者在使用Claude AI插件增强VSCode开发体验时,频繁遭遇编辑器无响应或直接崩溃的问题。这通常并非VSCode或Claude本身存在严重缺陷,而是配置不当触发了隐藏的性…

ISTA2A vs ASTM D4169 DC13:医药包装运输测试核心差异解析

医药行业的医疗器械、疫苗、生物制药等产品,对运输过程中的温湿度、振动、气压、冲击等环境极为敏感,包装运输测试直接关系产品安全性与合规性。ISTA2A与ASTM D4169-23e1中的DC13(航空陆运分销周期)是实验室高频测试标准&#xff…

使用Fritzing制作Arduino电路的深度剖析

用Fritzing搞定Arduino电路设计:从面包板到PCB的实战全解析 你有没有过这样的经历? 在桌上摆一块Arduino Uno,插上DHT11传感器、接个LCD屏、再连几根跳线……结果一通电,串口输出全是乱码。查了半天才发现是A4和A5引脚接反了&am…

共享单车停放指引:Qwen3Guard-Gen-8B倡导文明用车行为

共享单车停放指引:Qwen3Guard-Gen-8B倡导文明用车行为 在城市街头,共享单车早已成为人们短途出行的“标配”。但随之而来的乱停乱放、占用盲道、堆叠成山等问题,也频频引发公众对城市管理与用户素养的讨论。更值得警惕的是,当越来…