学习率对于PPO训练的作用

在深度学习中，学习率是一个超参数，它控制了我们在每次参数更新时，沿着梯度反方向前进的步长。

在PPO中，学习率通过优化器（如Adam）作用于策略网络和价值网络的所有参数。

PPO的目标函数本身就包含了防止一次更新步子太大的约束（通过Clipping或KL散度）。但学习率在此基础上提供了第二道、更细粒度的保障。

学习率在PPO中的具体影响：

控制总体更新幅度：即使PPO的比率 r(θ) = π_新(a|s) / π_旧(a|s) 因为Clipping机制被限制在 [1-ε, 1+ε] 的范围内，其计算出的梯度本身也是有“大小”的。学习率决定了这个梯度值最终会对网络参数产生多大的改变。
- 假设梯度向量是方向，学习率就是在这个方向上走的“距离”。
影响训练稳定性和收敛速度：这是学习率最核心的作用。
- 合适的学习率：能使策略平稳、持续地改进，最终收敛到一个较好的性能水平。
- 过高的学习率：即使有Clipping，参数更新也可能过于剧烈，导致策略发生突变，破坏之前学到的经验。表现为训练曲线剧烈波动，累计奖励突然崩溃。
- 过低的学习率：训练会非常缓慢，需要更多的交互样本和时间才能收敛。
与PPO-Clip协同工作：
- PPO-Clip (Epsilon)：像一个“安全阀”，主要在目标函数层面阻止那些对策略有巨大负面影响的更新（即当新策略与旧策略差异太大时）。
- 学习率：则在参数更新层面，对所有更新（包括那些有益的、小幅的更新）进行微调，控制其整体的幅度。

一个简单的比喻：
想象你在下山（寻找损失函数的最低点）。

在PPO以及大多数深度学习任务中，常常会使用学习率衰减策略。

这是一个非常经典的对比，因为它们都在控制“变化”，但作用的层面和方式完全不同。

特性	学习率	Epsilon (Clip Epsilon)
作用对象	优化过程。控制所有参数基于梯度更新的步长。	PPO目标函数。直接限制新策略与旧策略的概率比率的变化范围。
作用层面	参数空间。在反向传播和参数更新时生效。	策略/动作空间。在计算代理优势函数和损失函数时生效。
主要目标	控制每次迭代中网络参数的整体变化幅度，确保训练稳定收敛。	确保每次迭代中策略本身的改变是微小的，满足策略梯度理论中的信任域约束。
影响范围	全局性。影响策略网络和价值网络的每一个权重和偏置。	局部性/条件性。只对那些“优势函数为正且比率大于1+ε”或“优势函数为负且比率小于1-ε”的样本进行限制。对大部分“好”的更新没有影响。
功能类比	油门和刹车的灵敏度。控制你每次踩油门或刹车时，车辆加速或减速的力度。	方向盘的角度限位器。防止你急转弯，保证车辆始终平稳地改变方向，不会失控。

假设一个状态-动作对 (s, a) 具有很大的正优势函数，意味着这个动作非常好。

没有Clipping的情况：比率 r(θ) 可能会远大于1，导致目标函数值激增，从而产生一个巨大的梯度，使新策略过度偏向于选择动作 a。
有Clipping的情况 (Epsilon起作用)：PPO会将 r(θ) 限制在 1+ε。这样，即使这个动作很好，目标函数的值也不会无限增大，从而产生一个温和得多的梯度。
学习率起作用：优化器获取到这个被Clipping缓和后的梯度，然后用学习率这个系数来决定参数实际要更新多少。一个较小的学习率会让这次更新更加微小和稳定。

调参实践：

当训练不稳定（奖励曲线剧烈抖动）时，首先尝试降低学习率，或者启用学习率衰减。这是最常见且有效的稳定训练的方法之一。
如果降低学习率效果不明显，或者发现策略更新过于保守，可以调整Epsilon。增大Epsilon允许策略在单次更新中变化更大，减小Epsilon则约束更强。
通常，学习率需要仔细调整，而Epsilon有一个比较常用的默认值（如0.1或0.2），相对更鲁棒一些。

实际测试发现同时指数衰减出现学习效果变差的问题。而把指数衰减策略网络学习率至初始值的10%，保持策略网络学习率对于训练后期震荡有显著改善。但是依旧无法改变减少回合数和减少晶圆数出现剧烈震荡的问题。

1）使epsilon衰减速度快些
2）查看奖励函数设计，并合理改变奖励值

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/972274.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

孩子成绩提分缓慢、偏科严重，佛山家长们在挑选一对一家教机构时屡屡踩坑。不少机构打着 “名师辅导”“签约提分” 的旗号，实际师资良莠不齐，教学方法僵化；部分机构收费高昂却缺乏针对性，退费流程繁琐，售后保障形…