深度学习进阶(一)——从 LeNet 到 Transformer:卷积的荣光与注意力的崛起 - 实践

news/2025/11/9 10:36:50/文章来源:https://www.cnblogs.com/gccbuaa/p/19203879

一、前言:从图像识别到通用感知的时代转折

如果要给深度学习画一条时间轴,那么 2012 年的 AlexNet 无疑是分水岭。那一年,ImageNet 图像识别比赛中,AlexNet 以巨大优势击败传统算法,深度学习这个在学术角落里沉睡多年的概念,一夜之间成为主角。

但这场革命其实早在更久之前就埋下了种子。
在 1998 年,LeCun 提出了 LeNet-5 —— 一个看起来平平无奇的小型卷积网络,却第一次真正实现了端到端的数字识别任务。那时没有 GPU,没有大规模数据,但思想已经在那里:让机器自己学到特征,而不是人去定义特征。

从 LeNet 到 Transformer,跨度 20 余年。期间我们见证了从“局部感受野”到“全局注意力”的思想变迁,也见证了深度学习从计算机视觉的一角,走向语言、语音、生成模型的全面胜利。

这篇文章,我们从头开始,不仅讲网络结构,更讲清楚每个模型背后的动机——

每一次架构的诞生,都是为了解决上一个架构的局限。


二、LeNet:卷积神经网络的原初形态

在 LeNet 出现之前,图像识别通常依赖手工特征:边缘检测、HOG、SIFT 等。这些特征固然有效,但通用性差,且无法捕捉复杂的模式。

LeNet 的关键思想,是让神经网络自动学习“空间层次结构”:
低层感受边缘,高层感受形状,再高层理解语义。

LeNet-5 的架构如下(简化版):

Input (32x32)
→ Conv1 (6@28x28)
→ AvgPool1 (6@14x14)
→ Conv2 (16@10x10)
→ AvgPool2 (16@5x5)
→ FC1 (120)
→ FC2 (84)
→ Output (10)

核心理念有三:

  1. 局部连接:神经元不再与所有输入相连,只关注邻域像素。
    → 模拟人类视觉皮层的“感受野”概念。

  2. 权值共享:同一卷积核在图像不同位置滑动,意味着参数数量大幅减少。

  3. 下采样(Pooling):通过空间压缩,获得平移不变性。

伪代码如下:

for each filter in conv_layer:for each patch in image:output[x][y] = sum(filter * patch)

在今天看来这稀松平常,但在上世纪 90 年代,这种“共享参数”的思想几乎颠覆了传统神经网络。

LeNet 的意义

让神经网络第一次真正“看见”了图像。


三、AlexNet:GPU、ReLU 与大规模数据的爆炸

LeNet 的思想是正确的,但在当时无法规模化:CPU太慢、数据太少、网络太深会梯度消失。
直到 2012 年,Hinton 的学生 Alex Krizhevsky 用 GPU 把这个问题彻底解决了。

AlexNet 的创新主要有四点:

  1. GPU 计算:两块 GTX 580 显卡,把训练时间从几周缩短到几天;

  2. ReLU 激活:用 max(0, x) 代替 Sigmoid,有效解决梯度消失;

  3. Dropout:随机“丢弃”部分神经元,防止过拟合;

  4. 数据增强:旋转、翻转、裁剪,让网络见到更多“样本变化”。

结构大体如下:

Input → Conv → ReLU → Pool → Conv → ReLU → Pool → FC → Dropout → FC → Softmax

训练效果直接把传统机器学习打成废墟——Top-5 错误率从 26% 降到 16%。

但更重要的是,AlexNet 证明了“深度”确实有意义
层数越多,网络的抽象能力越强。


四、VGG:用简单堆叠追求极致

AlexNet 虽强,但结构杂乱。2014 年的 VGG 提出了极其简单的思想:

“我们不搞花样,只用 3x3 卷积,一个接一个堆。”

VGG 的典型结构是:

[Conv3-64, Conv3-64] → Pool → [Conv3-128, Conv3-128] → Pool → [Conv3-256, Conv3-256, Conv3-256] → Pool → FC

这种“纯净堆叠”的策略,让网络在 ImageNet 上性能进一步提升,也为后来的模块化结构奠定了基础。

伪代码:

def vgg_block(in_channels, out_channels, num_convs):for i in range(num_convs):x = conv3x3(x)x = relu(x)x = max_pool(x)return x

VGG 的价值在于:它把网络结构从“艺术”变成了“工程”,
让后人有了标准化的构建方式。


五、ResNet:解决“深了反而更差”的悖论

随着层数继续增加,人们发现一个怪现象:

网络越深,反而训练误差更高。

不是过拟合,而是优化失败。梯度在层间传播时会逐渐衰减或放大,导致训练困难。

ResNet(2015)提出了突破性的方案:残差连接(Residual Connection)

核心思想:
不要让每一层都去学习“完整映射”,只学习相对于输入的“残差”:

y=F(x)+xy = F(x) + xy=F(x)+x

伪代码如下:

def residual_block(x):out = conv_bn_relu(x)out = conv_bn(out)return relu(out + x)

这一条简单的“捷径”让 152 层的网络成功训练,并刷新所有指标。

更重要的是,ResNet 的结构让优化更可控,也启发了后来的 Transformer:

“让信息可以跨层流动,避免被阻断。”


六、Transformer:从局部卷积到全局建模

2017 年,Vaswani 等人提出 Transformer。
这不是对卷积的改进,而是一次范式转变。

卷积善于提取局部模式,但难以建模远距离依赖。Transformer 则完全放弃卷积,用**自注意力(Self-Attention)**机制实现全局建模。

核心思想:

每个位置都能根据内容,自主决定“关注谁”。

公式如下:

伪代码:

for each token i:for each token j:score[i][j] = dot(Q[i], K[j]) / sqrt(dk)attention[i] = softmax(score[i]) @ V

相比卷积:

  • 没有固定感受野;

  • 可以动态关注全局;

  • 参数更少,泛化更强。

起初它服务于 NLP,但后来人们发现它对图像、语音、视频同样有效。
于是有了 ViT(Vision Transformer)——用注意力机制处理图像块(Patch)。


七、从 LeNet 到 Transformer:思想的递进

我们可以这样理解整个脉络:

时代代表模型关键思想解决的问题
1998LeNet局部连接、权值共享自动特征提取
2012AlexNet深层结构、GPU、ReLU梯度消失与性能瓶颈
2014VGG模块化堆叠架构规范化
2015ResNet残差学习深层退化问题
2017Transformer全局注意力长依赖与信息瓶颈

可以看到,这是一条非常自然的演化线:

每一步都在解决上一步的缺陷,而不是取代它。


八、现代趋势:轻量化、多模态与统一架构

随着模型越来越大,算力成本成为主要矛盾。
于是 MobileNet、EfficientNet 等“轻量化模型”出现,用深度可分离卷积、自动架构搜索(NAS)等手段降低复杂度。

另一方面,Transformer 在语言和视觉上的成功,也催生了“统一架构”理念:

无论是文字、图像、语音,都可以用相似的注意力机制建模。

现在的 GPT、Gemini、Claude、LLaVA 等多模态模型,
其实都是 Transformer 思想的延伸:输入变了,核心机制没变。


九、结语:从模仿到抽象,从局部到全局

深度学习的演进,不是一连串模型的更替,而是一种思维的递进。

从 LeNet 的局部感受野,到 Transformer 的全局注意力,
我们看到的,是人类在不断逼近“通用表示”的过程。

未来的模型可能会回归简洁,也可能更复杂;
但可以肯定的是——

每一代架构的成功,都源于工程理性与数学洞察的平衡。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/960299.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年热门的剧院舞台灯光厂家最新推荐榜

2025年热门的剧院舞台灯光厂家最新推荐榜行业背景与市场趋势随着文化娱乐产业的蓬勃发展,全球舞台灯光市场规模持续扩大。据最新行业报告显示,2024年全球舞台灯光市场规模已达到85亿美元,预计到2025年将突破90亿美元…

2025年知名的火车宠物托运用户好评榜

2025年知名的火车宠物托运用户好评榜 行业背景与市场趋势 随着宠物经济的蓬勃发展,宠物托运行业近年来呈现快速增长态势。据《2024年中国宠物行业白皮书》数据显示,中国宠物市场规模已突破5000亿元,其中宠物托运服…

2025年专业的短视频运营本地优质榜

2025年专业的短视频运营本地优质榜:行业趋势与优质服务商推荐行业背景与市场趋势短视频行业在2025年已进入深度整合与专业化发展阶段。根据《2025中国短视频行业发展白皮书》显示,中国短视频用户规模已达9.8亿,占网…

中文机器阅读理解数据集:7000条高质量问答数据,涵盖搜索与知道双场景,支持DESCRIPTION:YES_NO:ENTITY多类型问题,适用于BERT:GPT等模型训练与评估

参考数据:机器阅读理解数据集引言与背景 在人工智能快速发展的今天,机器阅读理解(Machine Reading Comprehension, MRC)作为自然语言处理领域的核心任务之一,正受到学术界和工业界的广泛关注。机器阅读理解要求模…

2025年11月货架厂家推荐榜:五强对比评测与选购全解析

在“双11”后的补货高峰与年末库存盘点双重压力下,2025年11月成为仓储升级的关键窗口。中小企业主、第三方物流仓、连锁零售配销中心三类人群最常面临“货架承重不足、通道浪费、交付延期”三大痛点:一方面,临时加租…

2025年优秀的涂装喷砂房最新TOP排名厂家

2025年优秀的涂装喷砂房最新TOP排名厂家随着中国制造业的持续升级和环保要求的不断提高,涂装喷砂房作为表面处理的关键设备,其市场需求呈现出稳定增长态势。根据中国表面工程协会最新数据显示,2024年我国涂装喷砂设…

2025年靠谱的品牌展厅设计展示空间创新设计榜

2025年靠谱的品牌展厅设计展示空间创新设计榜行业背景与市场趋势随着体验经济的崛起和品牌竞争的加剧,品牌展厅设计已成为企业战略传播的重要载体。根据《2024年中国展览展示行业白皮书》数据显示,2023年中国品牌展厅…

2025年优秀的海外短信平台用户推荐权威榜

2025年优秀的海外短信平台用户推荐权威榜行业背景与市场趋势随着全球数字化进程加速,海外短信服务已成为企业国际化战略中不可或缺的一环。根据最新市场研究数据显示,2024年全球企业短信市场规模已达到487亿美元,预…

2025年11月geo优化服务商推荐榜:五强服务差异与风险中性提示

当企业准备把品牌信息同步到DeepSeek、豆包、通义千问、元宝、Kimi等生成式引擎时,如何找到既懂技术又懂行业的geo优化服务商,成为市场、公关与增长团队共同的焦虑点:预算有限,却希望一次部署就能覆盖多平台;算法…

[ docker context ]

docker context 可以用于隔离不同的 Docker 环境(如不同项目、不同服务器、不同容器引擎等),通过切换 context 可以快速切换 Docker 客户端的连接目标(例如本地 Docker 引擎、远程服务器上的 Docker 引擎、Docker …

2025年11月geo优化服务商实力推荐榜:头部案例与落地流程全公开

把“到底该选谁”的焦虑放一边,先回到你最真实的场景:品牌刚完成AI化升级,却发现DeepSeek、豆包、通义千问给出的答案版本不一;新品上市倒计时,搜索端口径混乱导致潜客流失;集团总部要求季度汇报必须附上AI可见度…

Zabbix服务告警:Zabbix server: Utilization of discoverer processes over 75%

在 Zabbix 中,discoverer 进程负责自动发现任务,用于周期性扫描 IP 段、检测设备是否在线,发现主机上的磁盘、网卡、文件系统等资源。Zabbix Server 在启动时会根据配置文件参数生成一定数量的 discoverer 进程,它…

2025年优质的合规管理知识产权贯标热门口碑排行榜

2025年优质的合规管理知识产权贯标热门口碑排行榜行业背景与市场趋势随着全球经济一体化进程加速和知识经济时代的到来,知识产权已成为企业核心竞争力的关键要素。2025年,中国知识产权服务业市场规模预计突破5000亿元…

2025年11月豆包排名优化实力推荐:五强对比助企业精准决策

开场白 “我的品牌刚被豆包收录,可排名总在第三屏以后,流量寥寥,预算却一天比一天紧。”——这是过去一个月里,我们收到的最高频的求助信号。企业既担心错过AI搜索的红利,又害怕投入不见水花,于是“谁能把豆包排…

2025年11月货架厂家推荐榜:陕西三禾领衔全维度对比评测

2025年11月,企业仓库升级、电商前置仓扩建、制造业线边库改造同步进入旺季,货架采购需求集中爆发。面对“承重是否够、交期是否准、后期维护谁负责”三大痛点,多数采购人先在搜索引擎里输入“货架厂家”,再被上千条…

2025年11月北京geo优化公司推荐榜:五强服务链路深度拆解

开场白 “预算有限却想同时覆盖豆包、DeepSeek、通义千问,到底该找谁?”这是最近三个月里企业市场部门最高频的提问。AI搜索流量入口高度碎片化,算法周级迭代,内部团队从零搭建GEO体系平均耗时六个月以上,且需要持…

2025年11月豆包搜索排名优化推荐盘点:五强方案覆盖全平台算法

当品牌方在豆包、DeepSeek、通义千问等生成式引擎里搜索自家关键词,却发现结果页被竞品占据,这种“隐身”焦虑正在批量出现。2025年第四季度,AI日活突破8亿,算法迭代周期缩短至7天,传统SEO逻辑彻底失灵,企业急需…

2025年11月北京geo优化公司推荐榜:场景化选择全攻略

开场白 “预算批了,可到底把GEO项目交给谁?”这是11月北京市场部最常出现的焦虑。AI搜索流量入口越来越分散,DeepSeek、豆包、通义千问、元宝、Kimi五家算法同场竞技,一条内容五套标准,品牌方既怕错过红利,又怕踩…

2025年11月豆包搜索排名优化服务推荐:五强实力剖析与落地步骤

当品牌方在豆包等生成式引擎的搜索结果里找不到自己,当新品发布的内容被算法淹没,当竞品却持续占据可见位置,焦虑便随之而来。2025年第四季度,AI平台日均迭代三次以上,传统SEO逻辑已无法直接迁移,企业需要一套面…

实用指南:计算机视觉——从YOLO系列演进到YOLOv12架构创新、注意力机制优化、推理实践与性能基准

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …