深度学习篇---深度学习中的范数


文章目录

  • 前言
  • 一、向量范数
    • 1.L0范数
      • 1.1定义
      • 1.2计算式
      • 1.3特点
      • 1.4应用场景
        • 1.4.1特征选择
        • 1.4.2压缩感知
    • 2.L1范数(曼哈顿范数)
      • 2.1定义
      • 2.2计算式
      • 2.3特点
      • 2.4应用场景
        • 2.4.1L1正则化
        • 2.4.2鲁棒回归
    • 3.L2范数(欧几里得范数)
      • 3.1定义
      • 3.2特点
      • 3.3应用场景
    • 4.L∞范数(最大范数)
      • 4.1定义
      • 4.2计算式
      • 4.3特点
      • 4.4应用场景
    • 5.Lp范数(广义范数)
      • 5.1定义
      • 5.2计算式
      • 5.3特点
  • 二、矩阵范数
    • 1. Frobenius范数(矩阵L2范数)
      • 1.1定义
      • 1.2特点
      • 1.3应用场景
    • 2. 核范数(迹范数)
      • 2.1定义
      • 2.2计算式
      • 2.3特点
      • 2.4应用场景
    • 3. 谱范数(最大奇异值范数)
      • 3.1定义
      • 3.2计算式
      • 3.3特点
      • 3.4应用场景
  • 三、范数在深度学习中的核心应用
    • 1. 正则化(防止过拟合)
      • 1.1L1正则化
      • 1.2L2正则化
    • 2. 损失函数设计
      • 2.1L1损失
      • 2.2L2损失
    • 3. 权重约束与优化
      • 3.1梯度裁剪
      • 3.2谱归一化
    • 4. 模型压缩与稀疏化
      • 4.1L1正则化
      • 4.2结构化范数
    • 5. 对抗防御
      • 5.1L∞范数
  • 四、不同范数的对比与选择
  • 五、总结
    • L1/L2范数
    • 矩阵范数
  • 范数选择原则


前言

本文介绍了一系列范数的定义、计算、使用。比如L1\L2\L∞\Frobenius范数(矩阵L2范数),用于正则化(防止过拟合)、损失函数。


一、向量范数

1.L0范数

1.1定义

向量中非零元素的数量

1.2计算式

L0范数的定义

1.3特点

  1. 非凸计算困难(NP难问题)。
  2. 用于稀疏性约束,但实际常用L1范数替代

1.4应用场景

1.4.1特征选择

特征选择(稀疏特征提取)。

1.4.2压缩感知

压缩感知(信号稀疏表示)。

2.L1范数(曼哈顿范数)

2.1定义

定义:向量元素绝对值之和

2.2计算式

L1范数

2.3特点

  1. 凸函数,可优化性强
  2. 诱导稀疏性:优化过程中倾向于将部分参数置零
  3. 几何解释:菱形等高线,在坐标轴处有“尖角”(稀疏性来源)。

2.4应用场景

2.4.1L1正则化

L1正则化(Lasso):用于线性回归、神经网络权重稀疏化

2.4.2鲁棒回归

鲁棒回归(如最小绝对偏差)。

3.L2范数(欧几里得范数)

3.1定义

定义:向量元素平方和的平方根。

L2范数

3.2特点

  1. 严格凸,优化稳定。
  2. 抑制大参数值,防止过拟合。
  3. 几何解释:圆形等高线,各方向平滑下降。

3.3应用场景

  1. L2正则化(岭回归、权重衰减):防止模型过拟合。
  2. 损失函数(如均方误差损失)。

4.L∞范数(最大范数)

4.1定义

定义:向量元素绝对值的最大值

4.2计算式

L∞范数

4.3特点

  1. 关注最大幅值的元素。
  2. 对抗样本生成中用于约束扰动大小

4.4应用场景

  1. 对抗训练(限制扰动的最大幅度)。
  2. 梯度裁剪(防止梯度爆炸)。

5.Lp范数(广义范数)

5.1定义

定义:向量元素绝对值的p次方和的1/p次幂。

5.2计算式

Lp范数

5.3特点

p=1时为L1范数,p=2时为L2范数,p→∞时趋近L∞范数
不同p值对应不同的稀疏性和平滑性权衡

二、矩阵范数

1. Frobenius范数(矩阵L2范数)

1.1定义

定义:矩阵元素平方和的平方根。
矩阵的L2范数

1.2特点

  1. 将矩阵视为向量后计算L2范数
  2. 衡量矩阵的“总能量”。

1.3应用场景

  1. 权重矩阵的正则化(如全连接层参数约束)。
  2. 矩阵分解(如PCA、SVD)。

2. 核范数(迹范数)

2.1定义

定义:矩阵奇异值之和。

2.2计算式

核范数

2.3特点

  1. 反映矩阵的低秩性质。
  2. 用于低秩矩阵恢复

2.4应用场景

  1. 推荐系统(矩阵补全,如Netflix问题)。
  2. 鲁棒PCA(分离低秩矩阵与稀疏噪声)。

3. 谱范数(最大奇异值范数)

3.1定义

定义:矩阵的最大奇异值

3.2计算式

谱范数

3.3特点

  1. 衡量矩阵对向量的最大拉伸程度
  2. Lipschitz连续性相关。

3.4应用场景

  1. 生成对抗网络(GAN):约束判别器的Lipschitz常数。
  2. 谱归一化(稳定训练过程)。

三、范数在深度学习中的核心应用

1. 正则化(防止过拟合)

1.1L1正则化

L1正则化:通过稀疏化权重减少模型复杂度(如Lasso回归)。

1.2L2正则化

L2正则化:通过限制权重幅度防止过拟合(如岭回归、神经网络权重衰减)。

2. 损失函数设计

2.1L1损失

L1损失(MAE):对异常值鲁棒,用于回归任务

2.2L2损失

L2损失(MSE):对异常值敏感,但优化更稳定

3. 权重约束与优化

3.1梯度裁剪

梯度裁剪:使用L2或L∞范数限制梯度大小,防止梯度爆炸。

3.2谱归一化

谱归一化:通过谱范数约束网络层的Lipschitz常数(如WGAN)。

4. 模型压缩与稀疏化

4.1L1正则化

L1正则化:生成稀疏权重矩阵,便于模型压缩(如剪枝)。

4.2结构化范数

结构化范数(如Group Lasso):约束特定参数组的稀疏性。

5. 对抗防御

5.1L∞范数

L∞约束:限制对抗扰动的大小(如对抗训练中的PGD攻击)。

四、不同范数的对比与选择

范数类型 稀疏性 计算复杂度 典型应用
L0 最强 NP难 理论分析,实际中少用
L1 强 低 特征选择、稀疏模型
L2 无 低 防止过拟合、稳定优化
L∞ 无 低 对抗训练、梯度裁剪
Frobenius 无 中 矩阵正则化、分解
核范数 低秩性 高 推荐系统、低秩恢复

五、总结

L1/L2范数

L1/L2范数:基础正则化工具,分别诱导稀疏性和平滑性。

矩阵范数

矩阵范数:处理高维数据、低秩建模及稳定训练。

范数选择原则

  1. 根据任务需求(稀疏性、低秩性、鲁棒性)。
  2. 考虑计算效率和优化难度
  3. 结合模型结构(如卷积层常用Frobenius范数,全连接层用L2)。

理解不同范数的特性及其几何意义,能够帮助设计更高效的模型架构、正则化策略和优化方法,从而提升深度学习模型的性能和泛化能力。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/73019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

星越L_灯光操作使用讲解

目录 1.开启前照灯 2左右转向灯、远近灯 3.auto自动灯光 4.自适应远近灯光 5.后雾灯 6.调节大灯高度 1.开启前照灯 2左右转向灯、远近灯 3.auto自动灯光 系统根据光线自动开启灯光

Stable Diffusion lora训练(一)

一、不同维度的LoRA训练步数建议 2D风格训练 数据规模:建议20-50张高质量图片(分辨率≥10241024),覆盖多角度、多表情的平面风格。步数范围:总步数控制在1000-2000步,公式为 总步数 Repeat Image Epoch …

AI 生成 PPT 网站介绍与优缺点分析

随着人工智能技术不断发展,利用 AI 自动生成 PPT 已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的 AI PPT 工具,重点列出免费使用机会较多的网站,并对各平台的优缺点进行详细分析,帮助用户根据自身需求选择合适的工具…

使用Systemd管理ES服务进程

Centos中的Systemd介绍 CentOS 中的 Systemd 详细介绍 Systemd 是 Linux 系统的初始化系统和服务管理器,自 CentOS 7 起取代了传统的 SysVinit,成为默认的初始化工具。它负责系统启动、服务管理、日志记录等核心功能,显著提升了系统的启动速…

【一维前缀和与二维前缀和(简单版dp)】

1.前缀和模板 一维前缀和模板 1.暴力解法 要求哪段区间,我就直接遍历那段区间求和。 时间复杂度O(n*q) 2.前缀和 ------ 快速求出数组中某一个连续区间的和。 1)预处理一个前缀和数组 这个前缀和数组设定为dp,dp[i]表示:表示…

在Windows和Linux系统上的Docker环境中使用的镜像是否相同

在Windows和Linux系统上的Docker环境中使用的镜像是否相同,取决于具体的运行模式和目标平台: 1. Linux容器模式(默认/常见场景) Windows系统: 当Windows上的Docker以Linux容器模式运行时(默认方式&#xf…

植物来源药用天然产物的合成生物学研究进展-文献精读121

植物来源药用天然产物的合成生物学研究进展 摘要 大多数药用天然产物在植物中含量低微,提取分离困难;而且这些化合物一般结构复杂,化学合成难度大,还容易造成环境污染。基于合成生物学技术获得药用天然产物具有绿色环保和可持续发…

JavaScript |(五)DOM简介 | 尚硅谷JavaScript基础实战

学习来源:尚硅谷JavaScript基础&实战丨JS入门到精通全套完整版 笔记来源:在这位大佬的基础上添加了一些东西,欢迎大家支持原创,大佬太棒了:JavaScript |(五)DOM简介 | 尚硅谷JavaScript基础…

浏览器工作原理深度解析(阶段二):HTML 解析与 DOM 树构建

一、引言 在阶段一中,我们了解了浏览器通过 HTTP/HTTPS 协议获取页面资源的过程。本阶段将聚焦于浏览器如何解析 HTML 代码并构建 DOM 树,这是渲染引擎的核心功能之一。该过程可分为两个关键步骤:词法分析(Token 化)和…

The Illustrated Stable Diffusion

The Illustrated Stable Diffusion 1. The components of Stable Diffusion1.1. Image information creator1.2. Image Decoder 2. What is Diffusion anyway?2.1. How does Diffusion work?2.2. Painting images by removing noise 3. Speed Boost: Diffusion on compressed…

yarn 装包时 package里包含sqlite3@5.0.2报错

yarn 装包时 package里包含sqlite35.0.2报错 解决方案: 第一步: 删除package.json里的sqlite35.0.2 第二步: 装包,或者增加其他的npm包 第三步: 在package.json里增加sqlite35.0.2,并运行yarn装包 此…

一个免费 好用的pdf在线处理工具

pdf24 doc2x 相比上面能更好的支持数学公式。但是收费

buu-bjdctf_2020_babystack2-好久不见51

整数溢出漏洞 将nbytes设置为-1就会回绕,变成超大整数 从而实现栈溢出漏洞 环境有问题 from pwn import *# 连接到远程服务器 p remote("node5.buuoj.cn", 28526)# 定义后门地址 backdoor 0x400726# 发送初始输入 p.sendlineafter(b"your name…

DHCP 配置

​ 最近发现,自己使用虚拟机建立的集群,在断电关机或者关机一段时间后,集群之间的链接散了,并且节点自身的 IP 也发生了变化,发现是 DHCP 的问题,这里记录一下。 DHCP ​ DHCP(Dynamic Host C…

股指期货合约的命名规则是怎样的?

股指期货合约的命名规则其实很简单,主要由两部分组成:合约代码和到期月份。 股指期货合约4个字母数字背后的秘密 股指期货合约一般来说都是由字母和数字来组合的,包含了品种代码和到期的时间,下面我们具体来看看。 咱们以“IF23…

OSPF 协议详解:从概念原理到配置实践的全网互通实现

什么是OSPF OSPF(开放最短路径优先)是由IETF开发的基于链路状态的自治系统内部路由协议,用来代替存在一些问题的RIP协议。与距离矢量协议不同,链路状态路由协议关心网络中链路活接口的状态(包括UP、DOWN、IP地址、掩码…

深入探究 JVM 堆的垃圾回收机制(二)— 回收

GC Roots 枚举需要遍历整个应用程序的上下文,而在进行可达性分析或者垃圾回收时,如果我们还是进行全堆扫描及收集,那么会非常耗时。JVM 将堆分为新生代及老生代,它们的回收频率及算法不一样。 1 回收算法 在进行可达性分析时&am…

蓝桥杯 之 数论

文章目录 习题质数找素数 数论,就是一些数学问题,蓝桥杯十分喜欢考察,常见的数论的问题有:取模,同余,大整数分解,素数,质因数,最大公约数,最小公倍数等等 素…

Unity Shader编程】之渲染流程之深度及pass详解

关于透明物体的渲染,首先需要了解以下部分 深度缓冲区深度写入深度测试pass渲染和深度测试的过程深度测试和颜色混合过程 ** 一,深度缓冲区 ** 深度即物体距离相机的距离,深度写入即是把物体的距离相机信息记录下来,写入一个名…

csv文件格式和excel数据格式有什么区别

CSV(Comma-Separated Values)和Excel(XLS/XLSX)数据格式的主要区别如下: 1. 文件格式 CSV:纯文本格式,每一行表示一条记录,字段之间用逗号(,)或其他分隔符&…