AdamW 是对经典 Adam 的改进版本,通过解耦权重衰减(Weight Decay)与L2正则化,避免了原Adam中权重衰减受自适应学习率影响而失效的问题。这一特性在 Transformer、BERT 等NLP模型以及部分CV任务中表现尤为突出。
核心原理: 传统Adam将L2正则化项直接加到梯度中,导致衰减强度依赖学习率;AdamW则在参数更新阶段单独减去 lr * weight_decay * 参数值,实现真正的解耦
https://juejin.cn/post/7425521050056261669