第二讲类神经网络训练不起来

news/2025/11/23 21:47:10/文章来源:https://www.cnblogs.com/luckyhappyyaoyao/p/19261315

第二讲类神经网络训练不起来

一.优化失败的原因

梯度为0有可能是local minima 和saddle point

因为计算优化的终止条件是梯度为0，但有可能梯度为0仅是局部最小值local minima或鞍点saddle point（多维，在某些维度是最小值，某些维度是最大值。）

eigen特征值

如果minimum ratio越偏向1则为local minima

因为有正有负样本的情况是saddle point

二.Batch

batch大的更新一次慢更新一整个epoch整个样本会更快

batch小的有益于training！

batch小的偏向于flat minima

batch大的偏向于sharp minima

当曲线偏移时，flat minima峡谷影响较小，sharp minima影响大

batch size 超参数

三.Momentum动量

critical points：梯度为0，saddle point和local minima

可通过海塞矩阵判断。
可沿海塞矩阵的特征向量方向逃离鞍点。
local minima稀少
小批量和动量帮助逃离critical points。

四.adaptive learning rate

为每个参数设置不同的learning rate！

步长的自适应调整

下方的曲线和蓝色圆点展示了 **

σ_{i t}

如何影响学习步长 **：

当 $σ_{i t}$ 较小时（如左侧区域）： $σ ^{i t} η$ 会变大，步长更大，适合在梯度变化剧烈的区域快速下降；
当 $σ_{i t}$ 增大时（如中间区域）：步长减小，避免在梯度平缓区域 “冲过头”；
当 $σ_{i t}$ 减小时（如右侧区域）：步长适配收敛过程，确保稳定找到最优解。

在分类任务中，交叉熵损失（Cross-entropy）比均方误差（MSE）更适合，原因如下：

1. 任务适配性

分类任务的输出通常是经过softmax的概率分布（表示对各类别的置信度），真实标签是one-hot 编码（仅正确类别为 1，其余为 0）。
交叉熵直接针对 “概率分布的相似度” 优化，公式为 $e = - \sum_{i} y^_{i} ln y_{i'}$ （因 $y^$ 是 one-hot，实际等价于 $- ln (y_{正确类别'})$ ），其本质是极大似然估计，直接优化模型对 “正确类别” 的概率置信度。
MSE 是为回归任务设计的（最小化连续值预测与真实值的平方差），分类任务中真实标签是离散的 “类别标识”，用 MSE 优化概率分布会出现适配性问题。

2. 梯度有效性

交叉熵的梯度：若模型对正确类别预测的概率 $y_{正确类别'}$ 越小（预测错误越严重），梯度 $\partial 参数 \partial e$ 越大，能快速推动模型调整参数，收敛更高效。
MSE 的梯度：假设真实标签 $y^$ 是 one-hot 向量，MSE 的梯度为 $\partial y ^{'} \partial e = 2 (y^{'} - y^)$ 。当预测概率与真实标签差距较大时，梯度可能因softmax的饱和特性（概率趋近 0 或 1 时，导数趋近 0）而消失，导致模型收敛极慢。

综上，在分类任务中，交叉熵损失是更优的选择；而 MSE 更适合连续值的回归任务（如预测房价、温度等）。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/974264.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【计算机网络】深入浅出DNS：网络世界的地址簿与导航系统 - 教程

【计算机网络】深入浅出DNS：网络世界的地址簿与导航系统 - 教程2025-11-23 21:39 tlnshuju 阅读(0) 评论(0) 收藏举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !imp…