【大模型】大模型训练的几个不同阶段

news/2025/10/20 20:54:30/文章来源:https://www.cnblogs.com/satsuki26681534/p/19153632

总结:各方法的典型关联(以大语言模型为例)

  1. Pre-Training:先让模型学“通识知识”(如语言、世界知识)。
  2. Supervised Fine-Tuning (SFT):用标注数据让模型学“任务基本模式”(如指令遵循)。
  3. Reward Modeling:训练模型学“人类偏好标准”(如什么回答更优质)。
  4. PPO / DPO:基于“人类偏好”优化模型,让输出更对齐人类需求。
  5. KTO:贯穿全程,优化“知识在不同阶段/任务间的迁移效率”。

1. Supervised Fine-Tuning(监督式微调,SFT)

就是通常说的微调训练

核心概念

预训练模型(已在大规模无标注数据上学到通用知识)的基础上,使用标注好的下游任务数据(输入-输出成对)进一步训练,让模型适配特定任务(如情感分析、专业问答)。

特点与应用

  • 优点:快速适配特定任务(无需从头训练)、性能高(预训练模型已有通用知识)、计算成本低。
  • 应用:NLP(机器翻译、聊天机器人)、计算机视觉(图像分类、目标检测)、语音识别(方言适配)等。
  • 挑战:需高质量标注数据,否则易过拟合;可能出现“灾难性遗忘”(丢失预训练的通用知识)。

2. Pre-Training(预训练)

核心概念

大规模、多样化的无标注数据上训练模型,让模型学习“通用特征/知识”,为后续所有下游任务打基础,是“迁移学习”的核心前提。

原理与流程

  1. 数据准备:选取海量数据(如NLP用全网文本,CV用ImageNet图像),进行清洗、标准化。
  2. 模型与任务设计:选择适合的模型架构(如NLP用Transformer,CV用CNN),设计自监督任务(如NLP的“掩码预测”“下句预测”,CV的“图像重建”)。
  3. 训练与监控:用海量资源(GPU/TPU集群)训练模型,通过损失下降、验证集表现监控训练,确保模型学通通用规律。

特点与应用

  • 优点:让模型掌握“通识知识”(如语言的语法语义、图像的物体特征),后续微调只需少量数据即可适配任务,大幅提升效率与效果。
  • 应用:所有基于“迁移学习”的任务(如大语言模型、计算机视觉模型的前置阶段)。
  • 类比:如同人类的“基础教育”,先通过广泛学习建立认知基础,再针对特定领域深化。

3.KTO(Knowledge Transfer Optimization,知识迁移优化,结合领域常见定义)

核心概念

聚焦于“知识迁移”的优化策略,旨在更高效地将“预训练知识”传递到下游任务,或在多任务/多模型间迁移知识。

原理与流程

通过特殊的损失函数、训练策略(如正则化、参数共享),让模型在微调时:

  • 更好地保留预训练的“通用知识”,避免灾难性遗忘;
  • 更高效地吸收下游任务的“专属知识”,提升跨任务的知识复用能力。

特点与应用

  • 作用:解决“预训练知识与下游任务知识的冲突/浪费”问题,提升模型在多任务、跨领域场景的表现。
  • 应用:多语言模型、多模态模型(如图文模型)的知识整合与迁移等。

强化学习与人类反馈(RLHF)的几个训练阶段

1. Reward Modeling(奖励建模)

核心概念

训练一个“奖励模型”,用于量化“模型输出与人类偏好的匹配程度”
强化学习与人类反馈(RLHF)流程的关键中间步骤。

原理与流程

  1. 数据收集:让人类对模型的多个输出进行“偏好判断”(如“回答A比回答B更 helpful”),形成“偏好成对数据”。
  2. 训练奖励模型:用这些成对数据训练模型,使奖励模型能给不同输出“打分”(分数越高,越符合人类偏好)。

特点与应用

  • 作用:为后续“强化学习微调”(如PPO)提供“反馈信号”——让模型知道“什么样的输出更好”。
  • 应用:大语言模型对齐人类偏好(如让回答更安全、更有用)、对话系统优化等。

2. PPO(Proximal Policy Optimization,近端策略优化)

核心概念

一种强化学习算法,是RLHF流程中“优化模型输出以匹配人类偏好”的核心手段,常与“奖励模型”配合使用。

原理与流程

  1. 输入奖励信号:用“奖励模型”给模型的候选输出打分(如“回答A得8分,回答B得6分”)。
  2. 优化模型参数:通过PPO算法调整模型参数,使模型更倾向于生成“奖励分高”的输出;同时限制参数更新幅度(“近端”即控制步长,避免模型因更新过大而性能崩溃)。

特点与应用

  • 优点:训练相对稳定,能有效让模型对齐人类偏好。
  • 应用:大语言模型的“人类偏好对齐”(如ChatGPT的优化阶段)、机器人控制等。
  • 挑战:计算成本高,流程复杂(需先训练奖励模型)。

3. DPO(Direct Preference Optimization,直接偏好优化)

核心概念

对RLHF的简化与改进,无需显式训练“奖励模型”,直接用“人类偏好的成对数据”优化模型。

原理与流程

  1. 数据利用:直接使用“人类偏好的成对数据”(如“输出A比输出B好”)。
  2. 直接优化模型:通过最大化“偏好输出”的概率、最小化“非偏好输出”的概率,直接调整模型参数,让模型更倾向于生成符合人类偏好的内容。

特点与应用

  • 优点:简化RLHF流程(无需奖励模型)、训练更高效、资源消耗更低,效果接近传统RLHF。
  • 应用:大语言模型的人类偏好对齐,适合资源有限或追求简化流程的场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/941588.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详细介绍:1、手把手教你入门设计半桥LLC开关电源设计,LLC谐振腔器件计算

详细介绍:1、手把手教你入门设计半桥LLC开关电源设计,LLC谐振腔器件计算pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family…

十六天

今日重点学习关系型数据库基础,核心掌握三个模块:一是数据表的结构化设计,明确字段类型(如INT、VARCHAR)需与数据属性匹配,避免后续数据存储异常;二是主键的作用,通过实操验证其“唯一标识记录”的必要性——未…

10/20/2025杂题 关于在线性时间内求解低次多项式的幂

例 设 \(g = ax^2 + bx + c\),求: \[ f = g^n\]其中 \(0 \leq n \leq 3 \times 10^5\)。结果对 \(10^9 + 7\) 取模。 首先可以直接用 MTT 在 \(O(n \log n)\) 的时间复杂度内求解。然而此做法常数太大,在需要多次求…

歌手与模特儿

https://www.luogu.com.cn/problem/AT_nikkei2019_2_final_h 第一次见到能 manacher 但不能二分+哈希的题! 直接上 manacher,当尝试将区间拓展为 \([l,r]\) 时,考察 \(nxt_l\) 和 \(lst_r\) 的位置关系,可以 check…

20251019

正睿 NOIP 十连测 B 有 \(n\) 个数 \(a_1 \sim a_n\)。初始有一个 \(x = 1\),每次需要将 \(x\) 变为某个 \(i\),花费代价为 \(\min(|i - x|, n - |i - x|)\),且 \(a_x \le a_i\)。问访问所有 \(i\) 需花费的最小代价…

计算机毕业设计 基于EChants的海洋气象数据可视化平台设计与建立 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试】

计算机毕业设计 基于EChants的海洋气象数据可视化平台设计与建立 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试】pre { white-space: pre !important; word-wrap: normal !important; overflo…

SpringBoot整合Redis教程

一、Redis 简介 Redis(Remote Dictionary Server)是一个开源的高性能键值对存储数据库,基于内存运行并支持持久化,常用于缓存、会话存储、消息队列等场景。其核心特点包括:速度快:基于内存操作,单线程模型避免上…

https://www.luogu.com.cn/problem/CF1635E

考虑一个事情,两辆车方向一定相反,弱化限制后,建二元关系图,发现一定是一张二分图。 钦定左部点为向左,其他点为向右,然后发现位置满足一个二元大小关系限制,建 DAG 跑拓扑序即可。

ZR 2025 NOIP 二十连测 Day 5

85 + 32 + 5 + 5 = 127, Rank 67/128.呜呜我错了……我再也不开太大的 vector 了呜呜……/dk /dk /dk25noip二十连测day5 链接:link 题解:题目内 时间:4h (2025.10.20 14:00~18:00) 题目数:4 难度:A B C D\(\colo…

关于单片机内部ADC采样率,采样精度的理解与计算整理 - 实践

关于单片机内部ADC采样率,采样精度的理解与计算整理 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Conso…

整体架构与数据流

下面给出对题目及当前代码求解方法的系统、深入解析,涵盖三问建模逻辑、数据流、关键算法、假设与局限、以及改进建议。内容按“题目需求 -> 代码实现 -> 差异/假设 -> 评估/改进”结构展开,方便你写论文或…

【上青了】

【上青了】赶紧把面板记录一下先,怕下次又又又掉了 没什么好讲的,本来上场打完就差 11 分,这场只要正常发挥就没问题变色,所以也没什么激动,该激动的上次都激动完了,哎哎哎 要说就是这次状态还行,不算差,前面 …

[VIM] reverse multiple lines in VIM

推荐方法: If you’re on a Unix-like system (FreeBSD, Linux, macOS), use :14,19!tac.来自chatgptTo reverse the display order of lines 51 to 54 in Vim, you can use the :g and :tac-style command combinati…

DeviceNet 转 Ethernet/IP:三菱 Q 系列 PLC 与欧姆龙 CJ2M PLC 在食品饮料袋装生产线包装材料余量预警的通讯配置案例

案例背景 DeviceNet 转 Ethernet/IP在食品饮料行业,包装生产线涉及多种设备,如灌装机、贴标机、封口机等。不同设备可能采用不同的工业总线协议,为了实现整个包装生产线的自动化控制和数据共享,需要将采用 Etherne…

【大模型】【扫盲】几种不同的微调方法

四种微调方式Full 对预训练模型的所有参数进行微调,让模型从底层到顶层的所有参数都参与更新,彻底适配下游任务 优点:模型对任务的适配性最强,在数据充足、任务复杂时效果通常最优 缺点:资源消耗极大(千亿参数模…

Tuack 生成比赛题目 PDF 笔记

Part 1. Tuack 的基本介绍 Tuack,是一个由来自 THU 的大佬 Mulab11 开发的,用于造算法竞赛题目的工具。 你可以用它:导出 PDF、Markdown、HTML 等多种不同格式,NOI、CPC 等不同风格的题面。 简单的出题人自评测功能…

在 wrapper 类里实现重载方法

现有包装类 Wrapper 欲覆盖 inner 的方法 g class A{void f(){g();}void g(){} }class Wrapper extends A{A inner;void f(){inner.f() // 不调用 Wrapper.g}void g(){ // override g} }inner 通过 this.g 调用时仍然会…

Vue 项目 AI 文档增量更新工具操作手册

一、工具目标 通过 AI 自动生成 Vue 组件 / JS 工具的工程化解释文档,并支持增量更新(仅处理新增 / 修改的文件),避免重复劳动,提升团队文档效率。 二、环境准备前置条件 已初始化的 Vue 项目(Vue 2 或 Vue 3 均…

P7521 [省选联考 2021 B 卷] 取模 分析

题目概述 给你 \(n\) 个数 \(a_i\)。 求:\(\max_{i\ne j\ne k}(a_i+a_j)\bmod a_k\)。 分析 好题! 我一开始看到是无从下手的。 但是细想一下,关键点在于 \(a_k\),所以的说,枚举 \(a_k\) 是必不可少的。 然后我们…

4060显卡也能玩转AI改图!Flux.1 Kontext Dev GGUF版本超详细入门教程 - 实践

4060显卡也能玩转AI改图!Flux.1 Kontext Dev GGUF版本超详细入门教程 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fam…