目录
- 1.
train/num_tokens - 2.
train/mean_token_accuracy - 3.
train/loss - 4.
train/learning_rate - 5.
train/grad_norm - 6.
train/global_step - 7.
train/epoch - 8.
train/entropy - 什么是梯度爆炸
- 1. 梯度爆炸的典型表现(与当前图对比)
- 2. 这张图里的情况
- 3. 一句话总结
1. train/num_tokens
- 含义:训练过程中模型处理的总 token 数量。
- 解读:这个指标随训练步数线性增长,代表模型正在稳定地处理数据。它是训练进度的一个直观体现。
2. train/mean_token_accuracy
- 含义:模型在训练集上对每个 token 预测的平均准确率。
- 解读:数值越高表示模型对训练数据的拟合效果越好。你这个曲线整体呈上升趋势,说明模型在持续学习和进步。
3. train/loss
- 含义:训练集上的损失值(通常是交叉熵损失)。
- 解读:损失值越低,代表模型的预测结果越接近真实标签。你的曲线在初期快速下降后趋于平稳,是典型的正常训练表现。
4. train/learning_rate
- 含义:训练时使用的学习率。
- 解读:你的曲线呈现“先上升后下降”的变化,说明使用了类似余弦退火或线性预热的学习率调度策略。这有助于模型在训练初期稳定收敛,后期精细优化。
5. train/grad_norm
- 含义:模型参数梯度的 L2 范数(梯度的大小)。
- 解读:它反映了训练过程的稳定性。初期较高随后下降并趋于平稳,说明梯度没有出现爆炸或消失,训练过程是稳定的。
6. train/global_step
- 含义:全局训练步数,即模型已经完成的参数更新次数。
- 解读:这是训练进度的基础时间轴,所有其他指标都基于它来展示变化趋势。
7. train/epoch
- 含义:当前训练已经完成的轮次(完整遍历训练集的次数)。
- 解读:曲线呈线性增长,说明训练在按计划推进,且当前已完成约5轮训练。
8. train/entropy
- 含义:模型预测分布的熵值。
- 解读:熵值越高,代表模型的预测越不确定。你的曲线整体下降,说明模型对训练数据的预测越来越自信,和损失下降、准确率上升的趋势是一致的。
什么是梯度爆炸
在这张 train/grad_norm(梯度范数)图里,梯度爆炸会有非常典型的视觉特征,我们可以对照来看:
1. 梯度爆炸的典型表现(与当前图对比)
- 数值飙升至极高水平:梯度范数会突然突破正常区间(比如从0.5直接跳到10、100甚至更大),在图上表现为一条几乎垂直向上的尖刺,远超当前图的0.4–0.9范围。
- 剧烈震荡且无收敛趋势:梯度范数会在极大值和极小值之间反复跳变,曲线波动幅度极大,完全没有当前图中逐渐趋于稳定的迹象。
- 出现异常值(NaN/Inf):极端情况下,梯度范数会超出图表的显示范围,甚至直接出现数值溢出(NaN或无穷大),在图上表现为曲线突然中断或消失。
2. 这张图里的情况
这张图中的梯度范数始终在 0.3–1.0 的区间内波动,整体趋势是逐渐收敛并稳定在0.4–0.6之间,没有出现梯度爆炸的特征。
- 初始阶段的最高值仅为0.9左右,属于正常的梯度范围;
- 后续波动幅度逐渐缩小,说明模型训练过程中的梯度是稳定的。
3. 一句话总结
如果这张图发生梯度爆炸,你会看到梯度范数曲线突然出现远超当前范围的尖刺,并且伴随无规律的剧烈震荡,而不是像现在这样在小范围内波动并趋于平稳。