深度学习进阶（一）——从 LeNet 到 Transformer：卷积的荣光与注意力的崛起

深度学习进阶（一）——从 LeNet 到 Transformer：卷积的荣光与注意力的崛起 - 实践

news/2025/11/9 10:36:50/文章来源:https://www.cnblogs.com/gccbuaa/p/19203879

一、前言：从图像识别到通用感知的时代转折

如果要给深度学习画一条时间轴，那么 2012 年的 AlexNet 无疑是分水岭。那一年，ImageNet 图像识别比赛中，AlexNet 以巨大优势击败传统算法，深度学习这个在学术角落里沉睡多年的概念，一夜之间成为主角。

但这场革命其实早在更久之前就埋下了种子。
在 1998 年，LeCun 提出了 LeNet-5 —— 一个看起来平平无奇的小型卷积网络，却第一次真正实现了端到端的数字识别任务。那时没有 GPU，没有大规模数据，但思想已经在那里：让机器自己学到特征，而不是人去定义特征。

从 LeNet 到 Transformer，跨度 20 余年。期间我们见证了从“局部感受野”到“全局注意力”的思想变迁，也见证了深度学习从计算机视觉的一角，走向语言、语音、生成模型的全面胜利。

这篇文章，我们从头开始，不仅讲网络结构，更讲清楚每个模型背后的动机——

每一次架构的诞生，都是为了解决上一个架构的局限。

二、LeNet：卷积神经网络的原初形态

在 LeNet 出现之前，图像识别通常依赖手工特征：边缘检测、HOG、SIFT 等。这些特征固然有效，但通用性差，且无法捕捉复杂的模式。

LeNet 的关键思想，是让神经网络自动学习“空间层次结构”：
低层感受边缘，高层感受形状，再高层理解语义。

LeNet-5 的架构如下（简化版）：

Input (32x32)
→ Conv1 (6@28x28)
→ AvgPool1 (6@14x14)
→ Conv2 (16@10x10)
→ AvgPool2 (16@5x5)
→ FC1 (120)
→ FC2 (84)
→ Output (10)

核心理念有三：

局部连接：神经元不再与所有输入相连，只关注邻域像素。
→ 模拟人类视觉皮层的“感受野”概念。
权值共享：同一卷积核在图像不同位置滑动，意味着参数数量大幅减少。
下采样（Pooling）：通过空间压缩，获得平移不变性。

伪代码如下：

for each filter in conv_layer:for each patch in image:output[x][y] = sum(filter * patch)

在今天看来这稀松平常，但在上世纪 90 年代，这种“共享参数”的思想几乎颠覆了传统神经网络。

LeNet 的意义：

让神经网络第一次真正“看见”了图像。

三、AlexNet：GPU、ReLU 与大规模数据的爆炸

LeNet 的思想是正确的，但在当时无法规模化：CPU太慢、数据太少、网络太深会梯度消失。
直到 2012 年，Hinton 的学生 Alex Krizhevsky 用 GPU 把这个问题彻底解决了。

AlexNet 的创新主要有四点：

GPU 计算：两块 GTX 580 显卡，把训练时间从几周缩短到几天；
ReLU 激活：用 max(0, x) 代替 Sigmoid，有效解决梯度消失；
Dropout：随机“丢弃”部分神经元，防止过拟合；
数据增强：旋转、翻转、裁剪，让网络见到更多“样本变化”。

结构大体如下：

Input → Conv → ReLU → Pool → Conv → ReLU → Pool → FC → Dropout → FC → Softmax

训练效果直接把传统机器学习打成废墟——Top-5 错误率从 26% 降到 16%。

但更重要的是，AlexNet 证明了“深度”确实有意义：
层数越多，网络的抽象能力越强。

四、VGG：用简单堆叠追求极致

AlexNet 虽强，但结构杂乱。2014 年的 VGG 提出了极其简单的思想：

“我们不搞花样，只用 3x3 卷积，一个接一个堆。”

VGG 的典型结构是：

[Conv3-64, Conv3-64] → Pool → [Conv3-128, Conv3-128] → Pool → [Conv3-256, Conv3-256, Conv3-256] → Pool → FC

这种“纯净堆叠”的策略，让网络在 ImageNet 上性能进一步提升，也为后来的模块化结构奠定了基础。

伪代码：

def vgg_block(in_channels, out_channels, num_convs):for i in range(num_convs):x = conv3x3(x)x = relu(x)x = max_pool(x)return x

VGG 的价值在于：它把网络结构从“艺术”变成了“工程”，
让后人有了标准化的构建方式。

五、ResNet：解决“深了反而更差”的悖论

随着层数继续增加，人们发现一个怪现象：

网络越深，反而训练误差更高。

不是过拟合，而是优化失败。梯度在层间传播时会逐渐衰减或放大，导致训练困难。

ResNet（2015）提出了突破性的方案：残差连接（Residual Connection）。

核心思想：
不要让每一层都去学习“完整映射”，只学习相对于输入的“残差”：

y=F(x)+xy = F(x) + xy=F(x)+x

伪代码如下：

def residual_block(x):out = conv_bn_relu(x)out = conv_bn(out)return relu(out + x)

这一条简单的“捷径”让 152 层的网络成功训练，并刷新所有指标。

更重要的是，ResNet 的结构让优化更可控，也启发了后来的 Transformer：

“让信息可以跨层流动，避免被阻断。”

六、Transformer：从局部卷积到全局建模

2017 年，Vaswani 等人提出 Transformer。
这不是对卷积的改进，而是一次范式转变。

卷积善于提取局部模式，但难以建模远距离依赖。Transformer 则完全放弃卷积，用**自注意力（Self-Attention）**机制实现全局建模。

核心思想：

每个位置都能根据内容，自主决定“关注谁”。

公式如下：

伪代码：

for each token i:for each token j:score[i][j] = dot(Q[i], K[j]) / sqrt(dk)attention[i] = softmax(score[i]) @ V

相比卷积：

没有固定感受野；
可以动态关注全局；
参数更少，泛化更强。

起初它服务于 NLP，但后来人们发现它对图像、语音、视频同样有效。
于是有了 ViT（Vision Transformer）——用注意力机制处理图像块（Patch）。

七、从 LeNet 到 Transformer：思想的递进

我们可以这样理解整个脉络：

时代	代表模型	关键思想	解决的问题
1998	LeNet	局部连接、权值共享	自动特征提取
2012	AlexNet	深层结构、GPU、ReLU	梯度消失与性能瓶颈
2014	VGG	模块化堆叠	架构规范化
2015	ResNet	残差学习	深层退化问题
2017	Transformer	全局注意力	长依赖与信息瓶颈