l2正则化项以及torch.norm

news/2025/10/19 22:33:59/文章来源:https://www.cnblogs.com/saulstavo/p/19151554

非常好，这段代码是一个非常典型的 L2 正则化（L2 Regularization） 的实现例子。
我们来一步步讲清楚它的作用、为什么写成这样，以及 torch.norm(param, p=2) 的意义。

一、先看这段代码在干什么

# 手动计算 L2 正则化项并加到总损失中
l2_reg = 0
for param in model.parameters():l2_reg += torch.norm(param, p=2)   # 计算每个参数的 L2 范数（即平方和的平方根）# 最终损失 = 原始损失 + L2 正则化项
total_loss = loss + l2_lambda * l2_reg

这段代码的逻辑是：

遍历模型的所有参数；
计算每个参数张量的 L2 范数（即权重的平方和开方）；
把所有参数的 L2 范数加起来，得到正则项；
把它乘以一个超参数 l2_lambda（正则化系数）；
最后与原始 loss 相加，形成新的总损失 total_loss。

二、为什么要写 `torch.norm(param, p=2)`

torch.norm 是计算张量的范数（norm）的函数。

常用形式：

torch.norm(tensor, p=2)

表示计算 L2 范数，即：

\[||W||_2 = \sqrt{\sum_i W_i^2} \]

举个例子：

import torch
w = torch.tensor([3.0, 4.0])
torch.norm(w, p=2)  # = sqrt(3² + 4²) = 5

在机器学习里，我们并不是单纯想知道权重有多大，而是希望：

在损失函数中惩罚权重过大的情况，防止模型过拟合。

于是我们把这个 L2 范数作为惩罚项加入总损失里。

三、为什么要加 L2 正则化项？

这是为了防止模型过拟合（overfitting）。

原始损失（如交叉熵）只关注“模型预测得对不对”；
但我们希望模型的参数也“不要太极端”（太大、太尖锐）。

所以我们加入一项惩罚：

\[Loss*{total} = Loss*{original} + \lambda \sum_i w_i^2 \]

其中 (\lambda) 是权重衰减系数，控制惩罚力度。

它的意义是：

如果权重过大 → 惩罚项大 → 让优化器“缩小”权重；
如果权重适中 → 惩罚项小 → 不影响原始损失。

这相当于告诉模型：

“别太依赖某个特征，保持整体权重平衡。”

四、L2 正则化的数学形式

从数学上讲，
L2 正则化项是：

\[\text{Regularization} = \frac{\lambda}{2} \sum_{i} w_i^2 \]

而 PyTorch 的 torch.norm(param, p=2) 返回的是：

\[||W||_2 = \sqrt{\sum_i w_i^2} \]

通常我们会用平方形式（不取平方根），即：

\[||W||_2^2 = \sum_i w_i^2 \]

如果你想完全对应公式，可以改成：

l2_reg += torch.norm(param, p=2) ** 2

这样结果是 L2 范数平方，更严格地符合理论定义。

五、它和 `weight_decay` 的关系

其实你不用手动写这段代码也可以实现同样效果。
在 PyTorch 的优化器中，比如 Adam、SGD，都有一个参数叫：

optimizer = torch.optim.Adam(model.parameters(), lr=1e-3, weight_decay=1e-4)

weight_decay 本质上就是在每次梯度更新时加上一个 L2 正则项（权重衰减项），
等价于你手动加的这一段。

手动写通常是为了：

控制哪些层加正则、哪些不加；
或者在复杂损失中单独调整正则项权重。

六、总结一句话

torch.norm(param, p=2) 是在计算参数张量的 L2 范数（权重平方和的平方根），
它作为惩罚项加入总损失中，起到限制模型复杂度、防止过拟合的作用。

✅ 结构化总结：

部分	含义
`torch.norm(param, p=2)`	计算每个参数的 L2 范数
`l2_reg += ...`	累加所有参数的范数
`total_loss = loss + λ * l2_reg`	在总损失中加上正则惩罚
目的	抑制权重过大、防止过拟合
对应公式	( \mathcal{L}{total} = \mathcal{L} + \lambda \sum_i w_i^2 )

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/940672.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

SP4191 天空代码分析

题目概述问有多少个 \((a,b,c,d)\)，在 \(n\) 个数的 \(x\) 满足 \(\gcd\{x_a,x_b,x_c,x_d\}=1\). 其中，\(n,\max x\leq 10^4\)。分析套路经典题目，记录一下。设 \(f(d)\) 表示选 \(4\) 个数，其最大公约数为 \(…