一文搞清微调技术的发展与演进

现在的大语言模型发展得非常快,从几亿参数到千亿参数,不仅模型越来越大,能力也越来越强。但是在实际工作中,我们很少会从零开始训练一个这样的巨无霸模型,因为那样的成本和资源需求实在太高了。更多的时候,我们会先用一个现成的强大模型,然后根据自己的需求对它做一些“微调”,让它更懂我们的领域、更符合我们的业务和价值观。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

微调并不是一开始就有这么多方法,它的技术路线也是一步步发展起来的。

为了带着思考去看接下来的内容,我们先抛出三个问题:

1.在大模型时代,为什么微调几乎取代了从零训练?

2.现在主流的大模型微调技术有哪些,它们的原理和特点有什么不同?

3.如果是落地到实际业务,我们该怎么选择合适的微调方法?

1. 微调的背景与动机

说到微调,首先要想清楚:我们为什么不直接训练一个新模型,而是要在别人已经训练好的模型上“动手脚”?最直接的原因就是——成本。训练一个千亿参数的模型,不仅需要超级昂贵的硬件,还得准备海量的高质量数据。对绝大多数企业和个人来说,这是不可能完成的任务。

第二个原因是,通用模型虽然强大,但它并不一定懂你所在的行业,比如医疗、法律、金融。这就像一个见多识广的人,可能对很多话题都能聊几句,但在某些专业领域还是需要补课。

最后,还有一个很现实的考虑:数据安全和合规。很多公司希望模型能按照自己的价值观、安全要求和业务逻辑来回答问题,这就需要对模型进行定制化训练。

换句话说,微调的出现,是为了用更低的成本、更少的资源,让模型更懂你、更安全、更专业。

2. 技术发展时间线与主要方法

2.1 2018 年及以前:全参数微调

早期的做法很直接——把整个模型的参数全部拿出来训练。这种方式简单粗暴,效果也非常好,但代价就是显存消耗大、训练时间长、算力要求高,基本上是科研机构或者小模型时代的标配。

如果用几句话总结这种方法,可以这么看待:

·更新全部参数,效果最佳

·显存和算力需求高

·适合小模型或科研任务

2.2 2019 年:特征提取

这个阶段的思路是,不去动模型内部的结构,而是把它当作一个固定的“特征提取器”,用它处理数据,然后在输出的特征上接一个新的分类器或其他下游模型。这样训练很快,成本也低,但对于需要深度理解和生成的任务就不太够用了。

简而言之,它的特点是:

·冻结主干网络

·快速训练、低成本

·复杂任务适配能力弱

2.3 2019 年底:Adapter 方法

研究者发现可以在 Transformer 的每一层之间加一个小模块,这个模块的参数很少,但却能学习特定任务的特征。训练时只更新这些模块,主干网络保持不动。这种方法既节省资源,又方便在多个任务之间切换不同的 Adapter。

用一行话概括 Adapter:

·在模型层间加入可训练模块

·参数更新量小,可多任务复用

·可能带来推理延迟

2.4 2021 年初:LoRA

LoRA 是一个非常有影响力的方法,它把需要更新的大矩阵分解成两个小的低秩矩阵,只训练这部分参数,最后还能把它们合并回原模型里,部署起来很方便。它的出现,让大模型的定制化变得更轻量、低成本,也因此在开源社区大火。

总结一下 LoRA 的优势和特点:

·低秩矩阵分解,只更新小部分参数

·显存需求低,部署方便

·社区应用广泛

2.5 2021 年中:提示微调

提示微调的思路是,模型本身不动,只在输入端加一些可学习的提示向量,让模型的行为发生变化。它的好处是训练极快、成本极低,但在复杂生成任务上的效果一般。

一句话描述提示微调:

·训练少量提示向量

·速度快、成本低

·复杂任务表现有限

2.6 2022 年:指令微调

指令微调的重点是,让模型通过大量高质量的指令-回答数据来学会遵循自然语言的指令。这一步对大模型变得更易用、更通用起到了关键作用,ChatGPT 的成功也离不开这一技术。

概括来说,指令微调就是:

·用指令-回答数据训练

·提升模型遵循指令和通用交互的能力

2.7 2022 年末至 2023 年:偏好对齐

在模型能理解指令之后,人们还希望它更符合人类的价值观和偏好。这就有了 RLHF 和 DPO 等方法。它们用人类的反馈来调整模型的回答倾向,从而提升安全性和用户体验。

简单理解就是:

·RLHF:监督微调 + 奖励模型 + 强化学习

·DPO:直接优化偏好差异,跳过奖励模型

·提升模型安全性和价值观一致性

3. 方法对比

不同的微调方法,就像不同的改装方式,各有优缺点。把它们放在一起对比,可以更直观地看到适用场景和成本差异:

最后,我们来回答一下文章开头提出的问题:

1.在大模型时代,为什么微调几乎取代了从零训练?

因为它能在保留预训练模型通用能力的同时,大幅降低计算和数据成本,让定制化更容易实现。

2.现在主流的大模型微调技术有哪些,它们的原理和特点有什么不同?

从早期的全参数微调,到特征提取、Adapter、LoRA、提示微调,再到指令微调和偏好对齐,它们在参数更新量、计算资源和适用场景上各有不同。

3.如果是落地到实际业务,我们该怎么选择合适的微调方法?

o数据多、预算充足且精度要求高:全参数微调

o资源有限但要求生成质量高:LoRA + 指令微调

o多任务共存:Adapter

o快速低成本适配:Prompt Tuning

o需要安全和价值观对齐:RLHF 或 DPO

如何学习AI大模型 ?

“最先掌握AI的人,将会晚掌握AI的人有竞争优势,晚掌握AI的人比完全不会AI的人竞争优势更大”。在这个技术日新月异的时代,不会新技能或者说落后就要挨打。

老蓝我作为一名在一线互联网企业(保密不方便透露)工作十余年,指导过不少同行后辈。帮助很多人得到了学习和成长。

我是非常希望可以把知识和技术分享给大家,但苦于传播途径有限,很多互联网行业的朋友无法获得正确的籽料得到学习的提升,所以也是整理了一份AI大模型籽料包括:AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、落地项目实战等免费分享出来。

👉点击即可获取大模型学习包2026年最新版👈

  1. AI大模型学习路线图
  2. 100套AI大模型商业化落地方案
  3. 100集大模型视频教程
  4. 200本大模型PDF书籍
  5. LLM面试题合集
  6. AI产品经理资源合集

大模型学习路线

想要学习一门新技术,你最先应该开始看的就是学习路线图,而下方这张超详细的学习路线图,按照这个路线进行学习,学完成为一名大模型算法工程师,拿个20k、15薪那是轻轻松松!

视频教程

首先是建议零基础的小伙伴通过视频教程来学习,其中这里给大家分享一份与上面成长路线&学习计划相对应的视频教程。文末有整合包的领取方式

技术书籍籽料

当然,当你入门之后,仅仅是视频教程已经不能满足你的需求了,这里也分享一份我学习期间整理的大模型入门书籍籽料。文末有整合包的领取方式

大模型实际应用报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。文末有整合包的领取方式

大模型落地应用案例PPT

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。文末有整合包的领取方式

大模型面试题&答案

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。文末有整合包的领取方式

领取方式

这份完整版的 AI大模型学习籽料我已经上传CSDN,需要的同学可以微⭐扫描下方CSDN官方认证二维码免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1131591.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux的root目录缓存清理

1. 找出隐藏的大文件 / 文件夹(关键步骤)先执行以下命令,查看 /root 下所有文件(包括隐藏文件) 的空间占用,定位具体占用空间的文件:# 查看/root下所有文件(含隐藏)的空间…

【收藏】LLM大模型全景解析:从零开始理解AI智能的诞生

LLM大模型是基于Transformer架构的海量参数模型,通过规模效应、自注意力机制和训练范式调整实现通用智能。工作流程包括分词、嵌入表示、多层Transformer堆叠和概率预测,实现数据压缩→规律学习→智能涌现。LLM有Decoder-Only、Encoder-Only和Encoder-De…

深度学习计算机毕设之通过python_CNN卷积神经网络对鸡蛋是否破损识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

mysql之联合索引

文章目录 一:联合索引二:创建联合索引三:删除索引四:总结: 一:联合索引 联合索引又称组合索引或者复合索引,是建立在俩列或者多列以上的索引。 二:创建联合索引 语法&#xff1a…

mysql之字符串函数

假设我们有一个字符串 Hello, World! 作为示例,我们会展示对这个字符串应用每个函数后的结果。 CONCAT(str1, str2, …) 将多个字符串值连接成一个字符串。 SELECT CONCAT(Hello, , World!); -- 结果: Hello, World!LENGTH(str) 返回字符串的长度(字节数…

大模型入门必看:一篇读懂AI大模型核心知识,建议收藏!

本文全面介绍了AI大模型家族的基础知识,包括AIGC的两种类型和三个发展阶段,详细解释了AI、机器学习、深度学习、生成式AI和大语言模型之间的关系与区别。重点阐述了Transformer架构及其自注意力机制在大语言模型中的核心作用,以及大语言模型的…

MySQL如何删除binlog日志文件

MySQL如何删除binlog日志文件呢? 1、使用命令手动在操作系统中删除,但是这种删除并没有从数据库逻辑层面删除,数据库里还记录着这条日志,可能会有一些问题。 进入到MySQL数据目录下,rm -rf 日志文件2、使用SQL命令删除&#xff0c…

js遍历数组和对象的常用方法有哪些?

精通 JS 遍历:数组与对象的高效遍历方法论(2026 版)遍历是 JavaScript 数据处理的基石,从前端 DOM 渲染到后端数据聚合,几乎所有业务场景都离不开数组和对象的遍历操作。但新手常陷入 “方法用错、性能低效、边界踩坑”…

NAT技术:互联网连接的隐形桥梁

目录 一、NAT 技术:从地址短缺到连接复用 1、背景:IPv4 地址枯竭与私有地址的诞生 2、基本 NAT(Basic NAT):一对一地址转换 工作原理: 示例: 局限性: 3、NAPT(Net…

Redis的两个小错误

说明:本文介绍关于自己遇到的 Redis 相关的两个小错误 问题一:配置没生效 在 Linux 中启动 redis 服务,发现配置文件中的设置没有起作用,设置了密码和可访问地址,没用 发现没起作用,我在服务器上启动 red…

深度学习计算机毕设之基于人工智能python-CNN卷积神经网络对土豆疾病识别基于python-CNN卷积神经网络对土豆疾病识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

mysql如何创建用户并且授权

在 MySQL 中可以使用以下步骤创建用户: 1.使用管理员账户登录到 MySQL: - 打开命令行终端,输入以下命令以管理员身份登录 MySQL(假设 MySQL 安装在默认位置且管理员用户为root,密码为your_root_password)&a…

Springboot校园二手交易平台lca16(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表项目功能:商品分类,用户,二手商品开题报告内容一、选题背景与意义(一)选题背景随着高等教育的普及和校园生活的丰富多彩,大学生在日常学习和生活中产生了大量的闲置物品,如书籍、电子产品、生活用品等…

深度学习毕设项目:基于python-CNN卷积神经网络的水果识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

NSSCTF2026年1月8日每日一练之[第五空间 2021]WebFTP

开启环境,进入页面得到先进行目录扫描 python dirsearch.py -u http://node4.anna.nssctf.cn:26891/扫描得到看到phpinfo.php,猜测可能存在php版本等相关敏感信息,访问一下搜索ctf或者flag,可以得到最终结果得到最终结果 NSSCTF{b…

ADVANCE Day44

浙大疏锦行 📘 Day 44 实战作业 (极速版):ResNet 与 迁移学习 1. 作业综述 核心目标: 迁移学习:学会调用 ImageNet 预训练的 ResNet18 模型,将其知识迁移到 CIFAR-10 任务上。策略对比:亲手实验 冻结骨…

深度学习毕设项目:基于python-CNN卷积神经网络对土豆疾病识别基于python-CNN卷积神经网络对土豆疾病识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

剪切板推荐,pastemate代替win系统自带的

通过网盘分享的文件:pastemate剪切板.rar 链接: https://pan.baidu.com/s/1InJIvHtkC9tQqMgQiq-jhw?pwd5668 提取码: 5668 win自带的有上限,也不会同步,放弃了,用这个