中国十大小说网站排名中小企业网络安全解决方案
中国十大小说网站排名,中小企业网络安全解决方案,中国工程建设标准化协会官方网站,南京建设企业网站目录 范数的意义范数的数学意义范数之于深度学习的意义 L1 范数与 L2 范数L1 范数L2 范数 小结 本节博文是线性代数第二部分#xff0c;主要内容为 L 1 L1 L1 范数与 L 2 L2 L2 范数#xff1b;有关线性代数基础知识#xff0c;请访问#xff1a;【深度学习】S2 数学基础… 目录 范数的意义范数的数学意义范数之于深度学习的意义 L1 范数与 L2 范数L1 范数L2 范数 小结 本节博文是线性代数第二部分主要内容为 L 1 L1 L1 范数与 L 2 L2 L2 范数有关线性代数基础知识请访问【深度学习】S2 数学基础 P1 线性代数上
范数的意义
范数的数学意义
在数学的框架内范数是一个基本的概念它为向量空间提供了一个度量方法使得可以比较向量的大小并研究向量之间的运算。
范数之于深度学习的意义
而在深度学习中范数作为正则化项添加到损失函数中以帮助改善模型的泛化能力。
具体的说在深度学习中损失函数由两部分组成数据损失和正则化损失。数据损失反映了模型预测与真实标签之间的差异例如交叉熵损失或均方误差而正则化损失则旨在惩罚模型的复杂度抑制模型参数的过度增长从而提高模型的泛化能力防止过拟合。 e . g . e.g. e.g. 一个包含均方误差损失函数和 L1 正则化项的损失函数表示为 L ( w ) L d a t a ( w ) λ R ( w ) L(w)L_{data}(w)\lambda R(w) L(w)Ldata(w)λR(w)
其中 L d a t a ( w ) L_{data}(w) Ldata(w) 为均方误差损失函数 R ( w ) R(w) R(w) 为 L1 正则化损失函数 λ \lambda λ 是正则化系数 L d a t a ( w ) 1 n ∑ i 1 n ( y i − y ^ i ) 2 L_{data}(w)\frac 1 n \sum ^n _{i1} (y_i-\hat y_i)^2 Ldata(w)n1∑i1n(yi−y^i)2
其中 y i y_i yi 是第 i i i 个真实标签 y ^ i \hat y_i y^i 是模型预测的第 i i i 个标签 n n n 是样本数量。 R ( w ) ∑ j ∣ w j ∣ R(w)\sum _j |w_j| R(w)∑j∣wj∣
其中 w j w_j wj 是模型参数 ∣ w j ∣ |w_j| ∣wj∣ 是 w j w_j wj 的绝对值。
可以发现优化算法在训练过程中会同时最小化两部分损失。由于正则化项通常与模型的复杂度成正比因此在优化算法寻找最小化损失函数的参数时会倾向于选择那些能够同时减小数据损失和正则化损失的参数。这样模型的参数值就会更加分散模型变得更加简单从而提高了在未见数据上的泛化能力。
如此便是范数之于深度学习的意义。 L1 范数与 L2 范数
L1 范数
L1 范数也称 L1 正则化、 “曼哈顿范数”Manhattan norm是向量各元素的绝对值之和。通过在损失函数中增加一个 L1 范数的惩罚项使某些参数变为零从而鼓励模型拥有更稀疏的权重防止模型过拟合。
对于向量 x [ x 1 , x 2 , . . . , x n ] \mathbf{x} [x_1, x_2, ..., x_n] x[x1,x2,...,xn]其 L1 范数表示为 ∣ ∣ x ∣ ∣ 1 ∑ i 1 n ∣ x i ∣ ||x||_1 \sum_{i1}^{n} |x_i| ∣∣x∣∣1i1∑n∣xi∣
在深度学习 PyTorch 框架中计算 L1 范数我们将 “绝对值函数” 和 “按元素求和” 组合起来
torch.abs(u).sum()L2 范数
L2 范数也称 L2 正则化、“欧几里得范数”Euclidean norm、“平方范数”是向量的各元素平方和的平方根。同于 L1 正则化鼓励模型拥有更稀疏的权重不同于 L1 正则化L2 正则化不会导致权重参数为零而是减小权重的绝对值。
对于向量 x [ x 1 , x 2 , . . . , x n ] \mathbf{x} [x_1, x_2, ..., x_n] x[x1,x2,...,xn]其 L2 范数表示为 ∣ ∣ x ∣ ∣ 2 ∑ i 1 n x i 2 ||x||_2 \sqrt{\sum_{i1}^{n} x_i^2} ∣∣x∣∣2i1∑nxi2
在深度学习 PyTorch 框架中计算 L2 范数使用 norm() 函数
u torch.tensor([3.0, -4.0])
torch.norm(u)小结
L1 范数和 L2 范数的选择取决于具体问题的需求。
在某些情况下使用 L1 范数可以得到更稀疏的解这在文本处理和某些类型的图像处理中是有益的。而在其他情况下L2 范数可能更为合适因为它能更好地控制模型的光滑度。
在实际应用中根据不同的场景和问题特性选择合适的范数非常重要这关系到算法的性能和效果。 如上 如有任何疑问请留言~
2024.2.14
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/86517.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!