神经网络为什么要用 ReLU 增加非线性?

在神经网络中使用 ReLU(Rectified Linear Unit) 作为激活函数的主要目的是引入非线性,这是神经网络能够学习复杂模式和解决非线性问题的关键。


1. 为什么需要非线性?

1.1 线性模型的局限性

如果神经网络只使用线性激活函数(如 f(x)=x),那么无论网络有多少层,整个模型仍然是一个线性模型。这是因为多个线性变换的组合仍然是线性变换:

f(f(f(x)))=W_{3}(W_{2}(W_{1}x+b_{1})+b_{2}) + b_{3}={W}'x+{b}'

这样的模型无法学习复杂的非线性关系,表达能力非常有限。

1.2 非线性激活函数的作用

非线性激活函数(如 ReLU、Sigmoid、Tanh)能够打破线性关系,使神经网络能够学习复杂的非线性模式。通过堆叠多个非线性层,神经网络可以逼近任意复杂的函数。


2. ReLU 的定义

ReLU 的定义非常简单:

ReLU(x)=max(0,x)

  • 当输入 x>0 时,输出 x。

  • 当输入 x≤0 时,输出 0。


3. ReLU 的优势

3.1 缓解梯度消失问题

  • 在 Sigmoid 或 Tanh 激活函数中,当输入值较大或较小时,梯度会趋近于零,导致梯度消失问题。

  • ReLU 的梯度在正区间恒为 1,避免了梯度消失问题,使得深层网络的训练更加稳定。

3.2 计算高效

  • ReLU 的计算非常简单,只需要比较和取最大值操作,计算速度远快于 Sigmoid 和 Tanh。

  • 在训练大规模神经网络时,ReLU 的高效计算能够显著加快训练速度。

3.3 稀疏激活

  • ReLU 会将负值输出为零,这使得神经网络的激活变得稀疏。

  • 稀疏激活可以减少参数之间的依赖性,提高模型的泛化能力。


4. ReLU 的变体

尽管 ReLU 有很多优点,但它也存在一些问题(如神经元“死亡”问题)。因此,研究者提出了多种 ReLU 的变体:

4.1 Leaky ReLU

在负区间引入一个小的斜率,避免神经元“死亡”:

Leaky ReLU(x)=\begin{cases} x& \text{ if } x> 0 \\ ax& \text{ if } x\leq 0 \end{cases}

其中 α 是一个小的正数(如 0.01)。

4.2 Parametric ReLU (PReLU)

将 Leaky ReLU 的斜率 α 作为可学习参数,动态调整负区间的输出。

4.3 Exponential Linear Unit (ELU)

在负区间引入指数函数,平滑过渡:

ELU(x)=\begin{cases} x & \text{ if } x> 0 \\ a(e^{x}-1) & \text{ if } x\leq 0 \end{cases}


5. ReLU 的代码实现

以下是 ReLU 及其变体的 PyTorch 展示:

import torch
import torch.nn as nn# 标准 ReLU
relu = nn.ReLU()
x = torch.tensor([-1.0, 2.0, -3.0, 4.0])
print(relu(x))  # 输出: tensor([0., 2., 0., 4.])# Leaky ReLU
leaky_relu = nn.LeakyReLU(negative_slope=0.01)
print(leaky_relu(x))  # 输出: tensor([-0.0100,  2.0000, -0.0300,  4.0000])# ELU
elu = nn.ELU(alpha=1.0)
print(elu(x))  # 输出: tensor([-0.6321,  2.0000, -0.9502,  4.0000])

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/73114.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用SSH密钥连接本地git 和 github

目录 配置本地SSH,添加到github首先查看本地是否有SSH密钥生成SSH密钥,和邮箱绑定将 SSH 密钥添加到 ssh-agent:显示本地公钥*把下面这一串生成的公钥存到github上* 验证SSH配置是否成功终端跳转到本地仓库把http协议改为SSH(如果…

关于AI数据分析可行性的初步评估

一、结论:可在部分环节嵌入,无法直接处理大量数据 1.非本地部署的AI应用处理非机密文件没问题,内部文件要注意数据安全风险。 2.AI(指高规格大模型)十分适合探索性研究分析,对复杂报告无法全流程执行&…

矩阵分析-浅要理解(深度学习方向)

梯度分析与最优化 在深度学习的任务中,我们所期望的是训练一个神经网络,使得预测结果与真实标签之间的误差最小化,这可以近似看作是一个提供梯度下降等优化找到全局最优解的凸优化问题。 奇异值分解 在信息工程领域,对数据处理的…

使用DeepSeek+蓝耘快速设计网页简易版《我的世界》小游戏

前言:如今,借助先进的人工智能模型与便捷的云平台,即便是新手开发者,也能开启创意游戏的设计之旅。DeepSeek 作为前沿的人工智能模型,具备强大的功能与潜力,而蓝耘智算云平台则为其提供了稳定高效的运行环境…

固定表头、首列 —— uniapp、vue 项目

项目实地&#xff1a;也可以在 【微信小程序】搜索体验&#xff1a;xny.handbook 另一个体验项目&#xff1a;官网 一、效果展示 二、代码展示 &#xff08;1&#xff09;html 部分 <view class"table"><view class"tr"><view class&quo…

【学习笔记】Numpy和Tensor的区别

1. NumPy 和 PyTorch Tensor 的格式对比 NumPy 使用的是 numpy.ndarray&#xff0c;而 PyTorch 使用的是 torch.Tensor&#xff0c;两者的格式在数据存储和计算方式上有所不同。 NumPy (numpy.ndarray) import numpy as np array np.array([[1.0, 2.0, 3.0], [4.0, 5.0, 6.…

每天一道算法题【蓝桥杯】【在排序数组中查找元素的第一个位置和最后一个位置】

思路 本题为查找左边界和右边界的标准模型 查找左边界 int left 0, right nums.size() - 1, mid 0; //查找左边界 while (left < right) { mid left (right - left) / 2; if (nums[mid] < target) left mid 1; else right mid; } 查找右边界 int left 0, r…

Python数据分析之机器学习基础

Python 数据分析重点知识点 本系列不同其他的知识点讲解&#xff0c;力求通过例子让新同学学习用法&#xff0c;帮助老同学快速回忆知识点 可视化系列&#xff1a; Python基础数据分析工具数据处理与分析数据可视化机器学习基础 五、机器学习基础 了解机器学习概念、分类及…

我与DeepSeek读《大型网站技术架构》(10)- 维基百科的高性能架构设计分析

目录 网站整体架构核心组件请求处理流程图关键环节说明 性能优化策略前端优化&#xff1a;拦截 80% 以上请求服务端优化&#xff1a;高性能 PHP 集群后端优化&#xff1a;存储与缓存极致设计Memcached 持久化连接 性能优化策略对比表 网站整体架构 核心组件 Wikipedia 的架构…

Excel多级联动下拉菜单设置

1.问题描述 现有数据表如下图所示&#xff1a; 该表中包括省、市、县三级目录。 现要将其整理成数据表模板&#xff0c;如下图所示&#xff1a; 要求制作成下拉菜单的形式&#xff0c;且每一级目录的下拉菜单列表要根据上一级目录的内容来确定。 如上图所示&#xff0c;只有…

智驾技术全链条解析

智驾技术全链条解析&#xff08;2025年最新版&#xff09; 智驾技术涵盖从环境感知到车辆控制的完整闭环&#xff0c;涉及硬件、算法、数据与系统集成等多个领域。以下结合行业最新进展&#xff08;截至2025年3月&#xff09;进行深度拆解&#xff1a; 一、感知技术&#xff1…

SpringMVC执行的流程

SpringMVC 基于 MVC 架构模式&#xff0c;核心流程时前端控制室 DispathcherServlet 统一调度&#xff0c;通过组件协作完成 http 的请求与响应。 对于 dispatchServlet 作为前端请求的控制器&#xff0c;全局的访问点&#xff0c;首先将根据 URL 调用 HandlerMapping 获取 Han…

Linux学习(十五)(故障排除(ICMP,Ping,Traceroute,网络统计,数据包分析))

故障排除是任何 Linux 用户或管理员的基本技能。这涉及识别和解决 Linux 系统中的问题。这些问题的范围包括常见的系统错误、硬件或软件问题、网络连接问题以及系统资源的管理。Linux 中的故障排除过程通常涉及使用命令行工具、检查系统和应用程序日志文件、了解系统进程&#…

存储过程和自定义函数在银行信贷业务中的应用(oracle)

数据校验和清洗 例如&#xff0c;检查客户的年龄是否在合理范围内&#xff0c;贷款金额是否符合规定的上下限等。 对于不符合规则的数据&#xff0c;可以进行清洗和修正。比如&#xff0c;将空值替换为默认值&#xff0c;或者对错误的数据进行纠正。 CREATE OR REPLACE PROC…

指令微调 (Instruction Tuning) 与 Prompt 工程

引言 预训练语言模型 (PLMs) 在通用语言能力方面展现出强大的潜力。然而&#xff0c;如何有效地引导 PLMs 遵循人类指令&#xff0c; 并输出符合人类意图的响应&#xff0c; 成为释放 PLMs 价值的关键挑战。 指令微调 (Instruction Tuning) 和 Prompt 工程 (Prompt Engineerin…

【c++】反转字符串

说明 将string类型的字符串本身反转 用到库&#xff1a;algorithm 示例代码 #include <iostream> #include <string> #include <algorithm> using namespace std;int main() {string str "123";reverse(str.begin(), str.end());cout <<…

正则表达式(复习)

文章目录 一、[]: 一个字符集合二、{}: 重复次数三、特殊符号四、(): 分组五、python代码示例六、注意 正则表达式(regular expression)描述了一种字符串匹配的模式&#xff08;pattern&#xff09;&#xff0c;可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个…

ARMV8的64位指令

一、介绍 ARMv8 体系结构最大的改变是增加了一个新的 64 位的指令集&#xff0c;这是早前 ARM 指令集 的有益补充和增强。它可以处理 64 位宽的寄存器和数据并且使用 64 位的指针来访问内存。这 个新的指令集称为 A64 指令集&#xff0c;运行在 AArch64 状态。 ARMv8 兼容旧的…

线性代数之矩阵特征值与特征向量的数值求解方法

文章目录 前言1. 幂迭代法&#xff08;Power Iteration&#xff09;幂法与反幂法求解矩阵特征值幂法求最大特征值编程实现补充说明 2. 逆幂迭代法&#xff08;Inverse Iteration&#xff09;移位反幂法 3. QR 算法&#xff08;QR Algorithm&#xff09;——稠密矩阵理论推导编程…

VScode:运行程序停止后,频繁出现终端进程被终止

VScode里面powershell被迫关闭 bug场景排查原因解决办法 bug场景 系统&#xff1a;Windows IDE&#xff1a;Visual Studio Code 停止运行程序后&#xff0c;按向上箭头想要执行上一步命令&#xff0c;忽然终端页面强行关闭&#xff0c;并报错如下&#xff1a; 终端进程 &quo…