通过实验直观理解神经网络:ReLU网络与几何解释

news/2025/10/7 12:10:17/文章来源:https://www.cnblogs.com/qife122/p/19128343

ADD / XOR / ROL:帮助我更好理解神经网络的实验(第1篇)

虽然我一直对在对抗性(安全)场景中使用机器学习和人工智能持怀疑态度,但我也很高兴AI/ML变得重要——至少这让我觉得我的数学硕士(和夭折的数学博士)没有白读。我是"自底向上"数学方法的坚定支持者:通过大量实例操作形成猜想后再进行理论处理。我倾向于通过大量实验来建立直觉;部分是因为我在纯形式化操作方面存在严重弱点,部分是因为我的数学思维很大程度上基于"几何直觉"——例如我依赖几何直觉来理解问题和陈述。

多年来,我一直想建立对深度神经网络实际"做什么"的更好直觉。社区中有人说"我们无法理解它们",也有人说"我们相信机制可解释性,我们已经找到了识别狗的神经元";我发现这两种说法都不特别有说服力。

因此,今年早些时候,我终于抽出时间拿起纸笔和废纸篓,开始思考当数据通过由ReLU单元组成的神经网络时会发生什么。为什么只关注ReLU?我的猜想是ReLU与其他任何激活函数一样有效,而且它们既相对容易理解,又实际用于机器学习应用。它们也是可供研究的"最简单示例"之一,而我是尝试简单示例的忠实粉丝。

这篇博客文章分享了我的一些实验和见解;我称之为"深度学习的纸飞机或折纸视角"。后来我发现有一些人在"多面体透镜"的名称下写过这些概念,尽管这在更广泛的可解释性社区中似乎是一个边缘概念(我觉得这很奇怪,因为——毫不意外——我相当确信这是理解神经网络的正确方式)。

让我们开始吧。为了建立直觉,我们将使用一个应该学习从R^2到R的函数的神经网络——本质上是学习灰度图像。这有几个优点:

  1. 我们可以直观地理解神经网络在学习什么。
  2. 我们可以通过获取高分辨率图像并在低分辨率样本上训练来模拟训练误差和泛化误差。
  3. 我们暂时停留在低维几何领域,这是我们大多数人有直观理解的领域。高维度很快就会带来各种复杂性。

让我们从理解二维ReLU神经元开始——本质上是函数f(x, y) = max( ax + by + c, 0),其中a、b和c取不同值。

这看起来有点像一张有折痕的纸:

如果我们改变参数a、b或c,这个函数会如何变化?让我们从改变a开始:

现在让我们看看改变b的情况:

最后让我们看看改变c的情况:

所以参数a、b、c实际上只是决定平面应该"以哪种方式"折叠/起皱,以及非平坦部分的陡度和方向。它将平面划分为半空间;结果函数在一个半平面上为0,在另一个半平面上为线性(或仿射)的。

下一步,让我们想象一个单层ReLU网络,它获取平面的(x,y)坐标,然后将其输入10个不同的ReLU神经元,然后通过使用单独权重求和来组合结果。

由此产生的网络将为每个神经元学习3个参数:a、b和c。每个"神经元"将代表平面的一个独立副本,然后将通过线性、加法、带权重的方式组合到输出函数中。训练过程将移动纸张中的"折痕",直到结果很好地近似所需输出。

让我们在尝试学习圆形图片时绘制这个过程:原始图片在这里:

这向我们展示了网络如何尝试逐步移动折痕,以便在由折痕创建的每个凸区域上,它可以选择不同的仿射函数(条件是函数在"折痕"处取值相同)。

让我们做另一个动画,这次使用更多第一层神经元——500个。让我们看看我们最终能多好地近似圆形。

除了观看令人着迷外,这也有点有趣并引发了一系列问题:

我对Adam作为优化器了解不够,无法理解优化过程中非常明显的"脉冲"来自哪里。这里发生了什么?

我对这么多折痕最终变得极其相似感到非常惊讶——是什么导致它们以这种方式聚集成组?圆形是完全旋转不变的,但视觉上折痕似乎比随机分布所暗示的更倾向于聚集成组。为什么?

学习"锐利"边缘似乎出人意料地困难,上图中黑白之间的边缘异常柔和。我原本期望通过具有非常大a/b常数的窄多面体来创建锐利边缘会更容易,但不知何故这很困难?这是正则化通过保持权重有界来防止锐利边缘出现吗?

显然,还有工作要做。现在,来点娱乐:训练相同的500神经元单层网络来学习重现我满脸氧化锌防晒霜的照片:

有趣的是(也许并不令人惊讶),重现的图像在视觉上感觉像折叠的纸。

无论如何,这是第一篇文章。随着我的实验和理解加深,我会写更多关于这些东西的内容。

我将在不久的将来解释的步骤:

  • 当你加深网络结构时会发生什么?
  • 如果你在分类数据上使用交叉熵训练网络,而不是使用MSE的连续输出,会发生什么?
  • 我们可以从这些实验中学到关于泛化、过拟合和过参数化的什么?

再见。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/930388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无锡网站公司哪家好网站访问慢的原因

基于springBoot旅游管理系统设计与实现 一、摘要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本旅游管理系统就是在这样的大环境下诞生,其可以帮助…

网站专题设计稿免费网站建设软件推荐

第一部分:安装k8s 1.28.2: 注意:因国内无法访问Google ,需要使用阿里云进行安装 系统准备 更新系统:确保你的Ubuntu系统是最新的。运行以下命令来更新系统: sudo apt-get update sudo apt-get upgrade -y sudo apt-get dist-upgrade -y安装必要的工具:安装curl和其他可能需…

CCPC2023哈尔滨 游记(VP)

有史以来打的最差的一场区域赛 VP,$2t$ 获得铁尾。省流 有史以来打的最差的一场区域赛 VP,\(2t\) 获得铁尾。9.30 内含剧透,请vp后再来。 不是题解!!!!!!! 赛前 要放国庆假期,简和叶都说要提前走,这场在开…

2025教练技术行业深度剖析:目标人群、费用与品牌选择

在当今竞争激烈的商业环境中,教练技术作为一种提升个人和团队能力的有效工具,正逐渐受到广泛关注。那么,排名靠前的教练技术课程的目标人群是谁?费用大概多少?哪些品牌靠谱且性价比高呢?让我们一同深入探讨。 目…

统计备注

统计备注一些基础的统计学备注笔记统计备注 1、高斯分布图解

单例模式的类和静态方法的类的区别和使用场景 - 指南

单例模式的类和静态方法的类的区别和使用场景 - 指南2025-10-07 12:02 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; dis…

LGP9871 [NOIP 2023] 天天爱打卡 学习笔记

LGP9871 [NOIP 2023] 天天爱打卡 学习笔记 Luogu Link 前言 经典题了属于是。写 \(\texttt{LGP12581}\) 时特此来回顾。 当年是有多么糖啊。希望现在只有棒棒没有糖吧。 题意简述 小 \(\text{T}\) 同学非常热衷于跑步。…

【OpenGL ES】Windows上OpenGL环境搭建

1 前言 ​ Windows 的图形 API 是 DirectX,对 OpenGL 的支持比较有限(系统自带的 opengl32.dll 仅支持 OpenGL 1.1 版本),因此在 Windows 上进行OpenGL 开发时,通常需要借助第三方库或工具来支持更高版本的 Op…

虚拟现实教育终端科技方案——基于EFISH-SCB-RK3588的全场景国产化替代

虚拟现实教育终端科技方案——基于EFISH-SCB-RK3588的全场景国产化替代pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &…

强化学习系统性学习笔记(二):策略优化的理论基础与算法实现

强化学习系统性学习笔记(二):策略优化的理论基础与算法实现策略优化的理论基础与算法实现 3.2 REINFORCE: 最早的策略梯度算法 在完成策略梯度定理的推导后,我们获得了梯度的理论形式: \[\nabla_\theta J(\pi_\thet…

惠州做公司网站广州软件开发培训班

RK3568测试tdd 一、门禁取包二、烧录三、跑tdd用例四、查看结果参考资料 一、门禁取包 右键复制链接,粘贴下载;解压到文件夹; 二、烧录 双击\windows\RKDevTool.exe打开烧写工具,工具界面击烧写步骤如图所示: 推荐…

完整教程:WordPress 6.5版本带来的新功能

完整教程:WordPress 6.5版本带来的新功能pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "…

网站维护的具体问题wordpress 代理插件

需求&#xff1a;点击button按钮&#xff0c;录入成功后&#xff0c;页面上的input框自动聚焦&#xff0c;快速进行下一次录入&#xff0c;提高效率 开始尝试了几种方法都没有成功 一、首先想到的用vue指令 v-focus&#xff0c;然而没有成功 <Input v-model"book.isbnO…

手机网站判断跳转代码怎么写医院建设网站与托管

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

微信开发框架/WTAPI框架

微信开发框架/WTAPI框架,个人微信接口开发,个微API,个人二次开发微信API,个人微信号二次开发api协议/微信个人号开发API接口 WTAPI框架,是完整的第三方服务平台,并基于IPAD协议8.0.37开发出的最新个微API服务框架…

免费开源Umi-OCR,离线采用,批量精准!

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025连接器厂家权威推荐榜:防水/m12防水/m8/防水3芯/防水t型三通/防水线束线缆/防水包胶连接器实力制造与创新技术深度解析

在工业4.0和智能制造快速发展的今天,连接器作为电子设备中不可或缺的基础元件,其技术水平和产品质量直接影响着整个电子系统的可靠性和性能。随着5G通信、新能源汽车、工业自动化等新兴领域的蓬勃发展,全球连接器市…

STM32外部中断(EXTI)以及旋转编码器的简介 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

神经网络中的梯度消失与梯度爆炸 - 实践

神经网络中的梯度消失与梯度爆炸 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mo…

[数学 - 正态分布]

您提到的“中间隆起的图”很可能就是正态分布(Normal Distribution)的图形,也叫钟形曲线(Bell Curve)。 在统计学和金融学中,这个图形和回归分析、标准差一样重要,因为它是我们理解风险、波动性和概率的基础。隆…