卷积神经网络是从多层感知机基础上发展起来的吗?

news/2025/12/7 22:14:43/文章来源:https://www.cnblogs.com/wangya216/p/19318981

卷积神经网络是从多层感知机基础上发展起来的吗?

在深度学习的发展历程中,卷积神经网络(CNN)和多层感知机(MLP)是两大核心架构,二者时常被放在一起比较。一个常见的疑问是:卷积神经网络是否从多层感知机的基础上发展而来? 答案是:CNN并非MLP的直接衍生产物,二者是基于不同设计理念、并行发展的神经网络分支,但CNN借鉴了MLP的核心训练逻辑与部分组件,最终形成了互补共存的关系。

一、 核心设计理念:截然不同的出发点

要厘清二者的关系,首先要明确它们的设计目标与核心机制存在本质差异,这是判断“衍生关系”的关键。

1. 多层感知机:全连接的“通用拟合器”

多层感知机的核心是全连接层+激活函数的堆叠结构。在MLP中,每一层的神经元都会与上一层的所有神经元相连,这种“全连接”特性决定了它的定位:拟合任意复杂的非线性函数,适用于结构化数据(如表格数据、特征向量)的处理。

例如,在信用卡违约预测任务中,输入的特征是用户的收入、负债、信用评分等一维向量,MLP通过全连接层的权重矩阵,将这些特征映射到“违约”或“不违约”的输出空间,能够高效完成任务。

但全连接的结构也带来了致命缺陷:参数爆炸与空间信息丢失。若输入是一张28×28的手写数字图像,将其展平为784维向量后,一个仅含1000个隐藏神经元的全连接层就需要784×1000=784000个参数。对于更高分辨率的图像,参数规模会呈指数级增长,不仅训练效率极低,还极易引发过拟合。更关键的是,MLP没有任何“空间归纳偏置”——它无法识别图像中像素的局部相关性(如边缘、纹理)和平移不变性(如猫的图像无论在左还是在右,都应被识别为猫)。

2. 卷积神经网络:专为网格数据设计的“特征提取器”

CNN的诞生并非为了改进MLP的全连接结构,而是源于对生物学视觉系统的模拟。1962年,神经科学家Hubel和Wiesel发现,猫的视觉皮层存在“感受野”机制——每个神经元只对视野中的局部区域敏感,不同神经元负责不同的特征(如边缘、方向)。这一发现为CNN的设计提供了核心灵感。

CNN的三大核心机制,完全区别于MLP的全连接逻辑:

  • 局部感受野:卷积核只与输入特征图的局部区域相连,而非整个特征图,聚焦于提取局部空间特征;
  • 权值共享:同一个卷积核在特征图的所有位置使用相同的权重,大幅减少参数数量;
  • 空间下采样:通过池化层降低特征图的维度,保留关键特征的同时进一步压缩计算量。

这些机制让CNN天生适合处理网格状数据(图像、语音频谱、文本序列),能够高效捕捉空间或时序上的局部关联,同时避免参数爆炸问题。例如,同样处理28×28的手写数字图像,一个5×5的卷积核仅需25个参数,远少于MLP的全连接层参数规模。

二、 技术关联:CNN借鉴了MLP的训练框架

尽管CNN的核心架构与MLP无关,但二者共享深度学习的基础训练逻辑,这也是它们被归为“神经网络”大家族的原因。具体关联体现在三个方面:

1. 反向传播与梯度下降:共同的优化核心

MLP和CNN都依赖反向传播算法计算网络参数的梯度,通过梯度下降优化器(如SGD、Adam)最小化损失函数。这一核心训练流程是所有深度学习模型的基础,并非MLP独有,但CNN的训练正是基于这一框架才得以实现。

在CNN诞生初期(如1980年福岛邦彦提出的Neocognitron),由于缺乏高效的训练算法,模型性能受限。直到1986年反向传播算法被重新提出并应用于MLP后,研究者才将这一算法引入CNN,解决了CNN的参数优化问题,为后续LeNet-5等实用模型的出现奠定了基础。

2. 输出层的“全连接复用”

CNN的核心功能是特征提取,而非直接完成分类或回归任务。在实际应用中,CNN的卷积层和池化层会将输入的网格数据转换为高维特征向量,最终需要通过全连接层(或全局平均池化层)将特征映射到输出空间。

这里的全连接层,正是MLP的核心组件。例如,经典的LeNet-5模型中,卷积和池化层提取的特征会被展平为一维向量,输入到两个全连接层中,最终输出手写数字的分类结果。可以说,CNN用“卷积+池化”解决了特征提取的问题,用“MLP的全连接层”解决了最终的任务决策问题。

3. 激活函数的通用逻辑

无论是MLP的隐藏层,还是CNN的卷积层,都需要引入非线性激活函数(如ReLU、Sigmoid、Tanh)。如果没有激活函数,多层网络等价于单层线性模型,无法拟合复杂的非线性关系。这一设计逻辑在MLP和CNN中完全通用,是二者的共性之一。

三、 发展脉络:并行演进的两条路线

从历史时间线来看,CNN和MLP的发展是两条并行的轨迹,不存在“继承与发展”的关系。二者在关键时间节点的发展脉络,可通过下表清晰呈现:

时间 多层感知机(MLP)发展脉络 卷积神经网络(CNN)发展脉络 关键技术交叉点
1958年 罗森布拉特提出感知机,作为MLP的雏形,可实现简单的二分类任务
1962年 Hubel和Wiesel发现猫视觉皮层的感受野机制,为CNN提供生物学灵感
1969年 Minsky和Papert出版《感知机》,指出单层感知机无法解决异或问题,MLP研究陷入低谷
1980年 福岛邦彦提出Neocognitron,引入局部感受野、权值共享,是CNN的第一个雏形 与MLP无技术关联,独立发展
1986年 Rumelhart等人重新提出反向传播算法,解决多层感知机的训练难题,MLP迎来复兴 研究者将反向传播算法引入Neocognitron,解决CNN的参数优化问题 核心技术交叉:反向传播成为MLP和CNN共同的训练框架
1989年 LeCun首次将反向传播与卷积结合,设计手写数字识别的卷积模型 CNN开始向实用化方向发展
1998年 MLP广泛应用于结构化数据任务(如分类、回归) LeCun提出LeNet-5,第一个实用的CNN模型,用于手写数字识别 CNN输出层引入MLP的全连接层,完成特征到任务的映射
2006年 Hinton提出深度信念网络,推动深度学习整体发展,MLP向深层网络演进 CNN研究相对沉寂,受限于算力和数据规模 深度学习整体崛起,为二者后续发展提供基础
2012年 MLP在推荐系统、金融风控等领域持续落地 AlexNet在ImageNet竞赛夺冠,大幅提升图像分类精度,CNN迎来爆发期 二者在不同任务场景互补共存:MLP处理结构化数据,CNN处理网格数据
2015年后 提出MLP-Mixer等架构,尝试用全连接层解决图像任务 ResNet、VGG、Transformer-CNN混合模型不断涌现,成为计算机视觉主流 技术融合:CNN引入注意力机制,MLP借鉴空间归纳偏置

从时间线中可以清晰看到:

  1. 1958-1969年:MLP的雏形与低谷
    1958年感知机被提出,1969年因异或问题陷入低谷,这一阶段CNN尚未有实质性进展。
  2. 1980年:CNN的前身独立诞生
    福岛邦彦的Neocognitron完全基于生物学视觉机制,与MLP的研究路线无交集。
  3. 1986年:反向传播算法成为技术纽带
    反向传播算法的复兴不仅救活了MLP,更赋能了CNN,成为二者共同的训练核心。
  4. 1998年:二者各成体系,开始互补
    MLP深耕结构化数据,CNN则凭借LeNet-5在图像领域站稳脚跟,输出层的全连接层成为二者的又一技术交集。
  5. 2012年至今:并行爆发,技术融合
    AlexNet让CNN风靡计算机视觉,MLP则在推荐、风控领域持续发力,近年来二者还出现了技术融合的趋势。

四、 总结:不是升级版,而是专用优化架构

我们可以用一个生活化的类比来理解二者的关系:

  • MLP是“通用计算器”,擅长处理规整的一维特征向量,能够完成多种非线性拟合任务,但在处理图像等网格数据时“力不从心”;
  • CNN是“图像专用扫描仪”,专为网格数据的特征提取设计,其核心的卷积层结构与MLP的全连接层完全不同,但它借鉴了“计算器”的计算逻辑(反向传播),并在输出端复用了“计算器”的核心组件(全连接层)。

因此,卷积神经网络不是从多层感知机基础上发展起来的,而是针对网格数据任务的专用优化架构。二者共享神经网络的基础训练框架,在深度学习领域各司其职、互补共存,共同推动着人工智能技术的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/991848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

gaussdb json解析

gaussdb (GaussDB Kernel 503.1.0.SPC1200 build c28d95e9) -- 序列 CREATE SEQUENCE seq_head_id START WITH 1; CREATE SEQUENCE seq_line_id START WITH 1;-- 头表 CREATE TABLE head_t (head_id BIGINT PRIMARY KE…

详细介绍:python logging模块:专业日志记录

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

JAX核心设计解析:函数式编程让代码更可控

很多人刚接触JAX都会有点懵——参数为啥要单独传?随机数还要自己管key?这跟PyTorch的画风完全不一样啊。 其实根本原因就一个:JAX是函数式编程而不是面向对象那套,想明白这点很多设计就都说得通了。 先说个核心区别…

20232305 2025-2026-1 《网络与系统攻防技术》实验八实验报告

1.实验内容 1.1 学习Web前后端语言. 1.2 搭建一个简单的登录网站。 1.3 尝试对网站进行SQL注入,XSS,CSRF攻击。 2.实验过程 2.1 Web前端HTML 2.1.1 安装,启停Apache Apache是一种开源Web服务器软件,其核心功能是接…

患者投诉管理,是否正面临这些难题?

院长码上办 www.yzmsb.com医院投诉管理,是否正面临这些难题? 传统手工模式已难以满足 医院等级评审 与 患者服务提升 的双重挑战 渠道分散,数据孤岛意见箱没人投,电话记不住。投诉散落在各个角落,缺乏统一台账,极…

NOIP 游记

NOIP 游记考后光顾着玩了,给忘了 这几天一直在补文化课,12.7 号今天才有时间 因为各种原因吧,这是我学这么多年来第一篇游记 感觉有好多话要说,却不知道从何说起 感觉成绩倒是很小一部分,大多是有了很多感想 算了…

CF794E Choosing Carrot

Sol 假设 \(p=\left\lfloor\frac{n}{2}\right\rfloor\),如果没有额外操作:如果 \(n\) 是奇数,答案就是 \(\max (\min(a_{p-1},a_{p}),\min(a_{p},a_{p+1}))\)。 如果 \(n\) 是偶数,答案就是 \(\max (a_{p},a_{p+1}…

澄清:梯度下降优化的是模型参数,而非损失函数本身

澄清:梯度下降优化的是模型参数,而非损失函数本身 在深度学习的表述中,“通过梯度下降(如SGD、Adam)优化损失函数”是一个口语化的简化说法,很容易引发误解——它的真实含义并不是修改损失函数的公式或参数,而是…

用心算感受天地运行法则的气功

用心算感受天地运行法则的气功 不断幻想,在天地之间存在一个算盘,我们按照珠算口诀,在算盘上计算星球的运行轨道。星系的运行轨道,使自己感悟宇宙的运行法则。 不断幻想,在天地之间存在一个算筹,我们按照算筹的计…

一文带你搞懂 AI Agent 开发利器:LangGraph 与 LangChain 区别

https://blog.csdn.net/xxue345678/article/details/149394171https://github.com/godmaybelieve

core学习之路

定位具体错误 ID (对应恢复序列):在步骤 2 中识别出的受影响核心上(或通过安全访问指向该核心的重分发器),读取 GICR_ISERRR0 和 GICR_ISERRR1E 。任何置 1 的位均表示对应的 PPI 或 SGI 处于错误状态。清除与恢复…

XXL-JOB v3.3.1 发布 | 升级SpringBoot4、健壮性增强

XXL-JOB 正在角逐 “2025 年度Gitee最受欢迎的开源软件”,期待您投出宝贵一票,你的认可对我们很重要🌹~投票链接👉:https://gitee.com/activity/2025opensource?ident=ISLBOHRelease Notes1、【新增】新增 “…

梯度:明明是个“方向”,为啥偏叫“度”?

梯度:明明是个“方向”,为啥偏叫“度”? 提到“梯度”,很多人第一次见这个词都会犯嘀咕: 它明明是深度学习里给模型指路的“方向标”,告诉模型该往哪走才能让预测更准,怎么看都是个方向概念,为啥名字里带个“度…

苹果游戏订阅服务新增六款作品,涵盖模拟与动作冒险类型

文章介绍了苹果游戏订阅服务Apple Arcade新增的六款游戏,包括《PowerWash Simulator》和《海绵宝宝:蟹堡追逐2》等,详述了各游戏的特色和优化,并提及了服务的订阅价格和包含内容。SpongeBob and PowerWash Simulat…

U渠道:构建百万级广告甲乙方资源生态,助力行业高效对接与价值共赢

U渠道:构建百万级广告甲乙方资源生态,助力行业高效对接与价值共赢(本报讯)随着数字广告行业进入精细化运营阶段,广告主(甲方)与服务商(乙方)的高效对接需求日益迫切。作为国内广告行业头部学习与资源平台艾奇…

陪诊不是“陪跑”——北京陪诊机构调研榜出炉,三家机构凭实力登榜

周三清晨的协和医院门诊大厅,72岁的张大爷攥着老花镜和一摞检查单站在自助机前犯愁。“儿女在外地,我连取号都摸不着头脑。”话音刚落,穿蓝色工牌的陪诊师李姐已快步上前,熟练地帮他完成挂号、医保关联,还顺手把检…

深入解析:【WPF】WrapPanel的用法

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

梯度下降:站在碗壁,如何找到最低点?

梯度下降:站在碗壁,如何找到最低点? 想象你站在一个巨大、光滑的陶瓷碗的内壁上。 你被蒙住眼睛,看不见碗底,也看不到碗口——但你知道:真正的目标在碗的最底部。 这,就是深度学习中“梯度下降”的核心画面。�…

牛客周赛121

A.幽幽子想吃东西每n吨获得a点满意度,最后判定一下n顿是否大于b吨决定是否要减去c的满意度即可void solve(){int a,b,c,n;cin>>a>>b>>c>>n;int ans=n*a-(n<=b)*c;cout<<ans<<…

微信小程序开发案例 | 幸运抽签小工具(上)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …