LoRA微调的指标

news/2026/1/25 21:06:44/文章来源:https://www.cnblogs.com/aibi1/p/19530491

目录
  • 1. train/num_tokens
  • 2. train/mean_token_accuracy
  • 3. train/loss
  • 4. train/learning_rate
  • 5. train/grad_norm
  • 6. train/global_step
  • 7. train/epoch
  • 8. train/entropy
  • 什么是梯度爆炸
  • 1. 梯度爆炸的典型表现(与当前图对比)
  • 2. 这张图里的情况
  • 3. 一句话总结

1. train/num_tokens

  • 含义:训练过程中模型处理的总 token 数量。
  • 解读:这个指标随训练步数线性增长,代表模型正在稳定地处理数据。它是训练进度的一个直观体现。

2. train/mean_token_accuracy

  • 含义:模型在训练集上对每个 token 预测的平均准确率。
  • 解读:数值越高表示模型对训练数据的拟合效果越好。你这个曲线整体呈上升趋势,说明模型在持续学习和进步。

3. train/loss

  • 含义:训练集上的损失值(通常是交叉熵损失)。
  • 解读:损失值越低,代表模型的预测结果越接近真实标签。你的曲线在初期快速下降后趋于平稳,是典型的正常训练表现。

4. train/learning_rate

  • 含义:训练时使用的学习率。
  • 解读:你的曲线呈现“先上升后下降”的变化,说明使用了类似余弦退火或线性预热的学习率调度策略。这有助于模型在训练初期稳定收敛,后期精细优化。

5. train/grad_norm

  • 含义:模型参数梯度的 L2 范数(梯度的大小)。
  • 解读:它反映了训练过程的稳定性。初期较高随后下降并趋于平稳,说明梯度没有出现爆炸或消失,训练过程是稳定的。

6. train/global_step

  • 含义:全局训练步数,即模型已经完成的参数更新次数。
  • 解读:这是训练进度的基础时间轴,所有其他指标都基于它来展示变化趋势。

7. train/epoch

  • 含义:当前训练已经完成的轮次(完整遍历训练集的次数)。
  • 解读:曲线呈线性增长,说明训练在按计划推进,且当前已完成约5轮训练。

8. train/entropy

  • 含义:模型预测分布的熵值。
  • 解读:熵值越高,代表模型的预测越不确定。你的曲线整体下降,说明模型对训练数据的预测越来越自信,和损失下降、准确率上升的趋势是一致的。

什么是梯度爆炸

在这张 train/grad_norm(梯度范数)图里,梯度爆炸会有非常典型的视觉特征,我们可以对照来看:


1. 梯度爆炸的典型表现(与当前图对比)

  • 数值飙升至极高水平:梯度范数会突然突破正常区间(比如从0.5直接跳到10、100甚至更大),在图上表现为一条几乎垂直向上的尖刺,远超当前图的0.4–0.9范围。
  • 剧烈震荡且无收敛趋势:梯度范数会在极大值和极小值之间反复跳变,曲线波动幅度极大,完全没有当前图中逐渐趋于稳定的迹象。
  • 出现异常值(NaN/Inf):极端情况下,梯度范数会超出图表的显示范围,甚至直接出现数值溢出(NaN或无穷大),在图上表现为曲线突然中断或消失。

2. 这张图里的情况

这张图中的梯度范数始终在 0.3–1.0 的区间内波动,整体趋势是逐渐收敛并稳定在0.4–0.6之间,没有出现梯度爆炸的特征

  • 初始阶段的最高值仅为0.9左右,属于正常的梯度范围;
  • 后续波动幅度逐渐缩小,说明模型训练过程中的梯度是稳定的。

3. 一句话总结

如果这张图发生梯度爆炸,你会看到梯度范数曲线突然出现远超当前范围的尖刺,并且伴随无规律的剧烈震荡,而不是像现在这样在小范围内波动并趋于平稳。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1215778.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【避坑指南】Listing 莫名被限流?可能是图片里的“中文残留”害了你!揭秘 AI 如何实现 100% 深度清洗

Python Listing优化 亚马逊被限流 图片合规 去中文 跨境电商运营 账号安全摘要在亚马逊、TikTok Shop 等平台的算法中,图片质量 是影响权重的核心指标。很多卖家直接使用厂家提供的图片,虽然修掉了大标题,但往往忽略了包装盒上的小字、产品背…

为什么标准化要用均值0和方差1?

为什么标准化要把均值设为0、方差设为1? 先说均值。均值就是平均数,所有观测值加起来除以个数。 μ是均值,n是数据点总数,xᵢ是每个数据点,所以均值就是数据的重心位置。比如均值是20,那20就是平衡点。这不是说所…

状态仅适用于类组件,或者使用 React 的 Hook 时可以在函数组件中使用。

React 组件状态(State) 组件可以拥有状态(state),它是组件数据的私有部分,可以用来管理动态数据。 状态仅适用于类组件,或者使用 React 的 Hook 时可以在函数组件中使用。 React 把组件看成是一个状态机&#xff08…

人群仿真软件:Vadere_(5).仿真场景设计

仿真场景设计 场景文件结构 在Vadere仿真软件中,场景设计是通过XML文件来实现的。这些文件定义了仿真环境的几何结构、障碍物、出口、行人源和目标等元素。理解场景文件的结构是设计复杂仿真场景的基础。 场景文件的基本元素 几何结构:定义场景的基本…

【技术解析】为什么 Google 翻译搞不定电商图?揭秘 AI Inpainting 技术如何实现“无痕”图片翻译

Python Inpainting 计算机视觉 图像翻译 跨境电商 视觉优化 自动化工具摘要在跨境电商的图片本地化过程中,很多卖家尝试过使用 Google 翻译(或微信扫一扫)的“图片翻译”功能。虽然能看懂意思,但翻译后的图片往往带有难看的色块背…

人群仿真软件:Vadere_(6).Vadere中的障碍物设置

障碍物设置 在人群仿真软件Vadere中,障碍物的设置对于模拟真实环境中的各种情况至关重要。障碍物可以是墙壁、柱子、家具等,这些障碍物会影响行人的行走路径和行为。本节将详细介绍如何在Vadere中设置障碍物,包括障碍物的定义、添加、编辑和…

【Python自动化】不懂代码怎么批量修图?这款 AI 工具把“脚本思维”封装成了傻瓜式软件!

Python 自动化办公 零代码 批量图片处理 跨境电商工具 效率提升 AI翻译摘要在跨境电商圈,“自动化运营”已成为提升人效的关键。很多卖家都知道 Python 脚本可以实现图片的批量采集、OCR 识别和翻译,但对于绝大多数非技术背景的运营人员来说,…

【SAA】SpringAI Alibaba学习笔记(二):提示词Prompt - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Java 核心语法精讲:注释、标识符、关键字与数据类型

注释 public class HelloWorld {public static void main(String[] args){//单行注释/*多行注释*/System.out.print("Hello,World!");//JavaDoc:文档注释 /** *//*** @deprecated Hello* @A* */} }标识符和…

2026 追番日记

一月 メダリスト 第2期 金牌得主 第二季 导演: 山本靖貴 脚本: 花田十輝 动画制作: ENGI ep.1 去回顾了下些花滑术语~来看小祈的金牌之路了 3F!我想起来了,我都想起来了( 美味表情(不是 还有芙莉莲的事情 我草这也…

详细介绍:Linux的目录结构

详细介绍:Linux的目录结构2026-01-25 21:01 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; …

Python核心语法-(一)Python解释器、Python注释 - 努力-

Python核心语法-(一)Python解释器、Python注释Python核心语法-,Python解释器、Python注释一、python 简介 1.1 python简介 python官网: https://www.python.org/downloads/Python的应⽤领域:1.2 Python解释器 Python解…

STM32 + FreeRTOS 长期可维护架构:写给那些不敢重构的工程师

文章目录 一、 为什么你现在就该为“三年后”焦虑?二、 架构健康的“残酷”判断标准三、 FreeRTOS 被“用坏”的三个根因1. 把 FreeRTOS 当成了“万能胶水”2. 误区:任务 (Task) 功能模块 (Feature)3. 上下文地狱:中断、回调、任务逻辑大乱炖…

人群仿真软件:SimWalk_(20).人群仿真在零售业中的应用

人群仿真在零售业中的应用 1. 零售业背景及需求 零售业是一个高度依赖顾客流量和行为预测的行业。通过人群仿真技术,零售商可以更好地理解顾客在店铺内的流动模式、购买行为和排队等候时间,进而优化店铺布局、提高顾客满意度和增加销售额。具体来说&am…

人群仿真软件:Vadere_(1).Vadere简介

Vadere简介 什么是Vadere Vadere是一款开源的人群仿真软件,专为研究和评估人群动态行为而设计。它提供了高度可配置的仿真环境,支持多种场景设置和人群行为模型。Vadere的主要特点包括: 多尺度仿真:Vadere可以在不同尺度上进行仿…

基于PromptX创建助手角色

基于PromptX创建助手角色 背景 最近才开始深入研究学习将LLM加入工作流中,可能对比其他人已经慢了很多了。在学习过程中,也许由于我很喜欢和AI对话,首先吸引我的是创建一个AI助手角色的思路,它利用不断对话和LLM的…

初识C语言14.动态内存管理 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

增量微调优化在线更新

💓 博客主页:借口的CSDN主页 ⏩ 文章专栏:《热点资讯》 智能优化:增量微调在线更新的效率革命与伦理挑战 目录 智能优化:增量微调在线更新的效率革命与伦理挑战 引言:动态AI的进化需求 现在时:成…

【Java 新手必看】比较运算符:从概念到实战,附可运行代码案例

比较运算符是 Java 中用于判断 “两个值 / 变量关系” 的核心运算符,也是实现程序逻辑判断(如 if/else)的基础。新手常混淆 “等于” 和 “赋值”、“等于” 和 “对象相等”,这篇笔记结合可直接运行的代码案例,从基础…