机器学习到深度学习发展历程

news/2025/10/21 22:15:51/文章来源:https://www.cnblogs.com/zhchoice/p/19156551

一、传统机器学习时代(2000-2012)

这一时期代表了深度学习革命前夕的机器学习黄金时代。支持向量机、决策树集成方法等技术在理论和实践上都达到了成熟,为后续深度学习的发展提供了重要的理论基础和实践经验。

支持向量机的理论突破

Corinna Cortes和Vladimir Vapnik在1995年于Machine Learning期刊发表的"Support-Vector Networks"奠定了SVM的理论基础。这项工作基于Vapnik早在1979年和1982年提出的统计学习理论,将机器学习建立在严格的数学基础之上。SVM通过最大间隔原理寻找最优分类超平面,基于结构风险最小化而非经验风险最小化,从根本上解决了泛化能力的理论保证问题。

核技巧的引入是SVM最具影响力的创新。Bernhard Boser等人在1992年提出通过核函数将数据映射到高维空间,使非线性可分问题转化为线性可分,而无需显式计算高维映射。这一思想不仅优雅地解决了计算复杂度问题,更重要的是提供了一个通用框架来处理复杂的非线性模式。相比当时流行的神经网络,SVM提供了凸优化问题保证全局最优,避免了局部极小值的困扰。

决策树与集成学习的演进

决策树算法经历了从Ross Quinlan的ID3(1986)到C4.5(1993)再到Leo Breiman的CART(1984)的演进。C4.5通过信息增益率解决了ID3对多值属性的偏好问题,引入了连续属性处理和缺失值处理机制,在2008年被评为数据挖掘十大算法之一。这些算法的核心价值在于提供了高度可解释的决策路径,在需要理解模型决策过程的场景中至今仍然不可替代。

Boosting算法的理论创新

Yoav Freund和Robert Schapire于1997年提出的AdaBoost是集成学习的里程碑。这项工作因其理论贡献获得了2003年哥德尔奖,证明了弱学习器可以通过自适应组合变成强学习器。AdaBoost的自适应重加权机制让模型聚焦于困难样本,每轮迭代后增加被错分样本的权重,实现了指数级的训练误差下降。更深刻的是,Schapire等人在1998年证明AdaBoost倾向于最大化训练样本的间隔,将boosting与支持向量机的理论联系起来。

Jerome Friedman在2001年提出的Gradient Boosting将boosting统一到函数空间梯度下降的框架中,开创性地将优化理论引入集成学习。这一工作证明AdaBoost等价于使用指数损失的gradient boosting,为不同任务选择合适损失函数提供了理论指导。Gradient boosting的收缩和随机采样策略有效防止过拟合,在处理异常值方面比AdaBoost更加鲁棒。

Random Forest的突破性贡献

Leo Breiman在2001年提出的Random Forest通过双重随机性——bootstrap采样和随机特征选择——实现了强大的泛化能力。理论上,Random Forest通过强大数定律保证收敛,即使树的数量非常大也不会过拟合。Breiman证明了泛化误差上界取决于单个分类器的强度与分类器之间相关性的比值,揭示了准确性和多样性平衡的重要性。

在噪声鲁棒性测试中,Random Forest展现出显著优势。Breiman的实验表明,在5%标签噪声下,AdaBoost某些数据集误差增加43-49%,而Random Forest误差变化通常小于8%。这种鲁棒性使Random Forest成为实践中"开箱即用的最佳分类器",至今在处理表格数据时仍是首选方法之一。


二、计算机视觉的深度学习革命

卷积神经网络的复兴之路

Yann LeCun等人1998年发表的LeNet-5在IEEE Proceedings上标志着卷积神经网络的成熟。LeNet首次成功应用反向传播训练卷积网络,直接从像素学习特征而无需手工特征工程。其卷积→池化→卷积→池化→全连接的经典模式确立了CNN的基本范式,被部署在ATM机器识别支票数字,部分代码至今仍在使用。

然而,真正的革命来自2012年。Alex Krizhevsky, Ilya Sutskever和Geoffrey Hinton的AlexNet在NIPS 2012上横空出世,在ImageNet ILSVRC-2012上以15.3%的top-5错误率碾压传统方法的26.2%,领先近10个百分点。这一突破源于多项关键创新的协同作用。ReLU激活函数使训练速度提升6倍,彻底解决了sigmoid的梯度消失问题。Dropout正则化通过随机丢弃神经元防止过拟合。数据增强将训练集扩大2048倍。最革命性的是使用双GPU并行训练,开创了深度学习的GPU时代。

网络深度的探索

Karen Simonyan和Andrew Zisserman的VGGNet(2014,ICLR 2015)系统探索了网络深度的重要性。VGG的核心洞察是用多个3×3小卷积核堆叠替代大卷积核——两个3×3卷积的感受野等于一个5×5卷积,三个3×3等于一个7×7,但参数更少且非线性更强。VGG-16和VGG-19的极其规整的架构设计(全部使用3×3卷积,通道数规律递增64→128→256→512)使其成为最易理解和实现的深度网络,VGG特征也成为计算机视觉迁移学习的标准基准。

Christian Szegedy等人的GoogLeNet(2014,CVPR 2015)则从效率角度突破。Inception模块在同一层并行使用1×1、3×3、5×5卷积和池化操作,让网络自己学习选择最合适的特征尺度。1×1卷积的瓶颈层设计大幅减少计算量,使22层深的GoogLeNet仅有4M参数,相比AlexNet的60M减少93%。全局平均池化替代全连接层进一步减少参数,辅助分类器缓解深层网络的梯度消失。这些创新使GoogLeNet在增加深度和宽度的同时保持计算预算不变,赢得ILSVRC-2014分类任务冠军。

残差学习的革命性突破

何恺明等人2015年提出的ResNet(CVPR 2016)是深度学习历史上最具影响力的工作之一。ResNet解决了一个令人困惑的现象:简单堆叠层会导致更深网络的训练误差反而上升(退化问题)。残差连接H(x) = F(x) + x提供了优雅的解决方案——让网络学习残差F(x)而非直接映射H(x)。这一设计基于深刻的洞察:恒等映射至少不会降低性能,残差学习让优化变得更容易。

ResNet的成功是惊人的。152层的网络比VGG深8倍却更容易训练,在ImageNet ILSVRC-2015上获得5项冠军(分类、检测、定位、COCO检测、COCO分割),top-5错误率降至3.57%。瓶颈结构(1×1→3×3→1×1)和批归一化的使用使训练超深网络成为可能。残差连接随后成为现代深度学习的标配组件,广泛应用于Transformer、目标检测、语义分割等各个领域,论文被引用超过数十万次。

密集连接与模型效率

黄高等人的DenseNet(CVPR 2017最佳论文)通过密集连接进一步探索特征复用。每一层都与之前所有层直接连接,L层网络有L(L+1)/2个连接。通过concatenation而非addition实现连接,最大化信息流和特征重用。增长率(growth rate)设计使每层只输出很少的特征图(k=12或32),保持网络紧凑。实验表明,相比ResNet参数量减少约三分之一的同时,在CIFAR-10、CIFAR-100、SVHN和ImageNet上都达到state-of-the-art。

谭明星和黎国威的EfficientNet(ICML 2019)则系统性地重新思考模型缩放。核心创新是复合缩放方法,同时平衡深度、宽度和分辨率三个维度,而非传统的单一维度缩放。通过神经架构搜索设计基准网络EfficientNet-B0,然后用统一的复合系数控制网络规模。EfficientNet-B7在ImageNet上达到84.3% top-1准确率,比之前最好模型小8.4倍、快6.1倍。这项工作证明了系统化模型缩放的重要性,改变了网络设计的思维方式。

Vision Transformer的范式转变

Alexey Dosovitskiy等人2020年提出的Vision Transformer(ICLR 2021)标志着计算机视觉进入新时代。ViT完全放弃卷积操作,将图像分割成16×16的patches,通过线性投影映射到嵌入空间,加上位置编码后输入标准Transformer编码器。这一设计打破了CNN内置的平移不变性和局部性等归纳偏置,通过自注意力机制从第一层就能获取全局信息。

ViT的关键发现是数据规模的重要性。在小数据集上从头训练,ViT性能略逊于ResNet;但在大规模数据集(ImageNet-21K或JFT-300M)上预训练后,ViT显著超越CNN。ViT在ImageNet-1K微调后达到88.55% top-1准确率,展现出卓越的可扩展性。这一成功催生了大量后续工作。

Hugo Touvron等人的DeiT(ICML 2021)解决了ViT的数据依赖问题。通过基于注意力的知识蒸馏和强数据增强,DeiT仅使用ImageNet-1K就能在单台计算机上训练不到3天,达到83.1% top-1准确率。更重要的是,使用CNN作为教师模型的蒸馏策略(DeiT⚗)达到85.2%准确率,证明了Transformer可以继承CNN的归纳偏置优势。

刘泽等人的Swin Transformer(ICCV 2021最佳论文Marr Prize)则解决了ViT的计算效率和多尺度特征问题。通过层次化架构和移动窗口机制,Swin实现了相对图像大小的线性计算复杂度。移动窗口自注意力巧妙地平衡了局部建模和跨窗口连接,使Swin成为通用视觉骨干网络。Swin在ImageNet分类(87.3%)、COCO目标检测(58.7 box AP)、ADE20K语义分割(53.5 mIoU)等多个任务上都达到SOTA,证明了Transformer在视觉领域的通用性。

目标检测的两大范式

Ross Girshick等人开创的R-CNN系列定义了两阶段检测范式。R-CNN(CVPR 2014)首次将CNN应用于目标检测,在PASCAL VOC 2012上相比之前最好结果提升30%以上的mAP。Fast R-CNN(ICCV 2015)通过RoI Pooling层实现特征共享和端到端训练,速度比R-CNN快213倍。Faster R-CNN(NIPS 2015)的区域建议网络(RPN)是决定性突破,将区域建议从外部算法转变为可学习的网络模块,anchor机制成为后续检测方法的标准组件。

Joseph Redmon等人的YOLO系列开创了单阶段实时检测。YOLOv1(CVPR 2016)将检测重新定义为单一回归问题,实现45 fps的实时检测。YOLOv2(CVPR 2017)引入anchor boxes、维度聚类、多尺度训练,在67 fps时达到76.8 mAP。YOLOv3(2018)的多尺度预测和Darknet-53骨干网络显著提升小物体检测能力。YOLO系列证明了速度与精度可以更好平衡,成为自动驾驶、实时监控等速度敏感应用的首选。

Wei Liu等人的SSD(ECCV 2016)在单阶段框架下追求更高精度。通过在不同分辨率的多个特征图上预测,自然地处理各种尺寸的物体。SSD300在58 fps时达到72.1 mAP,500×500输入达到75.1 mAP超越Faster R-CNN,证明了单阶段检测器也能达到接近两阶段的精度。

图像分割的技术演进

Jonathan Long等人的FCN(CVPR 2015)开创了端到端的语义分割。将分类网络的全连接层替换为1×1卷积,使网络能接受任意尺寸输入。跳跃连接将深层语义信息与浅层细节信息结合,FCN-8s在PASCAL VOC 2012上达到62.2% mean IU,相对提升20%。FCN的全卷积架构和跳跃连接设计成为分割网络的基础范式。

Olaf Ronneberger等人的U-Net(MICCAI 2015)专为医学图像设计,成为该领域的事实标准。U型编码器-解码器结构通过对称的跳跃连接保留更多细节。加权损失函数特别关注分割边界,解决细胞等小目标的边界分割问题。通过强力数据增强,U-Net能从极少标注图像(几十张)中有效学习。U-Net在ISBI细胞追踪挑战赛2015中大幅度获胜,引用量超过数万次,启发了大量变体如UNet++、TransUNet等。

何恺明等人的Mask R-CNN(ICCV 2017)将目标检测扩展到实例分割。在Faster R-CNN基础上增加掩码预测分支,通过RoIAlign层实现像素级精确对齐。解耦的掩码和类别预测、多任务学习使Mask R-CNN在COCO 2016的实例分割、目标检测、人体关键点检测三个赛道都取得最佳成绩,成为实例分割领域的基线模型。

Liang-Chieh Chen等人的DeepLab系列持续改进语义分割。DeepLabv1/v2引入空洞卷积和空洞空间金字塔池化(ASPP),在不损失分辨率的情况下扩大感受野。DeepLabv3改进ASPP模块并移除CRF后处理。DeepLabv3+(ECCV 2018)采用编码器-解码器架构,引入空洞可分离卷积,在PASCAL VOC 2012上达到89%,Cityscapes上达到82.1%,成为自动驾驶等应用的标准方案。


三、自然语言处理的范式演进

词嵌入的革命

Tomas Mikolov等人2013年提出的Word2Vec(ICLR 2013)开创了预训练词嵌入的新范式。Word2Vec将词映射到连续低维向量空间,使相似词在空间中距离接近。CBOW和Skip-gram两种架构各有优势,负采样技术大幅提升训练效率。Word2Vec实现了向量运算表达语义关系,"king - man + woman ≈ queen"的类比推理展示了分布式表示的强大。在16亿词数据集上训练仅需不到一天,使大规模词嵌入训练变得可行。

Jeffrey Pennington等人的GloVe(EMNLP 2014)从另一角度改进词嵌入。基于全局词-词共现矩阵训练,目标是使词向量点积等于共现概率的对数。GloVe结合了矩阵分解方法的全局统计优势和局部上下文方法的向量空间线性结构优势,在词类比任务上达到75%准确率。这两项工作共同确立了词嵌入作为NLP深度学习标准输入的地位。

循环网络的发展

Sepp Hochreiter和Jürgen Schmidhuber1997年提出的LSTM(Neural Computation)通过记忆单元和门控机制解决了RNN的梯度消失问题。输入门、遗忘门、输出门协同工作,使LSTM能够学习跨越1000个以上时间步的长距离依赖关系。LSTM成为处理序列数据的标准架构,为后续Seq2Seq和注意力机制奠定基础。

Kyunghyun Cho等人的GRU(EMNLP 2014)简化了LSTM结构。仅使用重置门和更新门,取消细胞状态,参数更少训练更快。在许多任务上GRU与LSTM性能相当,在资源受限场景更有优势。

Seq2Seq与注意力机制的突破

Ilya Sutskever等人的Seq2Seq(NIPS 2014)开创了神经机器翻译时代。编码器-解码器架构将可变长度输入序列编码为固定维度向量,解码器从该向量生成目标序列。端到端学习无需人工设计特征,在WMT'14英法翻译上达到34.8 BLEU。输入序列反转的简单技巧引入更多短期依赖,显著提升性能。

Dzmitry Bahdanau等人的注意力机制(ICLR 2015)是NLP历史上最重要的创新之一。摒弃固定长度上下文向量瓶颈,允许解码器在生成每个词时动态关注源句子的不同部分。通过可学习的对齐模型计算注意力权重,使模型能够自动学习对齐和翻译。注意力机制显著改善了长句子翻译质量,提供了模型决策的可解释性,直接启发了2017年Transformer的诞生。

Transformer架构的革命

Ashish Vaswani等人的"Attention Is All You Need"(NIPS 2017)开启了新时代。Transformer完全基于自注意力机制,抛弃循环和卷积结构。多头注意力允许模型同时关注不同位置的不同表示子空间。位置编码注入序列位置信息。6层编码器-解码器架构在WMT 2014英德翻译上达到28.4 BLEU,英法翻译达到41.8 BLEU的单模型SOTA。

Transformer的关键优势是并行化训练。RNN的顺序处理限制被完全消除,训练时间显著缩短(8个GPU仅需3.5天)。任意两个位置间的路径长度为O(1),有效捕获长距离依赖。这些特性使Transformer成为后续所有大语言模型的基础架构。

预训练范式的确立

Jacob Devlin等人的BERT(NAACL 2019)确立了"预训练-微调"作为NLP主流范式。BERT使用仅编码器的Transformer架构,通过深度双向预训练同时利用左右上下文。掩码语言模型(MLM)随机遮盖15%的词训练模型预测,下一句预测(NSP)判断句子连续性。BERT-Large在GLUE基准上达到80.5%,绝对提升7.7%;SQuAD v1.1 F1达到93.2,展现了预训练模型在语言理解任务上的强大能力。

BERT催生了大量变体。Yinhan Liu等人的RoBERTa(2019)通过移除NSP、动态掩码、更大批次、更多数据(160GB)证明BERT显著欠训练。Zhenzhong Lan等人的ALBERT(ICLR 2020)通过因子化嵌入参数化和跨层参数共享,参数减少18倍性能不降。Zhilin Yang等人的XLNet(NeurIPS 2019)提出置换语言模型,克服BERT的[MASK]标记问题。

自回归语言模型的演进

Alec Radford等人的GPT系列代表了另一条技术路线。GPT-1(2018)使用仅解码器Transformer架构,117M参数,生成式预训练+判别式微调。GPT-2(2019)规模跃升至1.5B参数,在WebText(40GB,800万网页)上训练,展示了零样本学习能力。

GPT-3(NeurIPS 2020)是里程碑式的突破。175B参数,比GPT-2大100倍,在750GB文本上训练。GPT-3展示了上下文学习(In-Context Learning)能力,通过提示词即可执行任务无需梯度更新。Few-shot、One-shot甚至Zero-shot能力令人惊叹。GPT-3证明了规模定律的威力,展现了大模型的涌现能力。

GPT-4(2023年3月)带来多模态能力,同时处理文本和图像输入。支持8K和32K上下文窗口,在专业考试中表现接近人类专家(统一律师资格考试前10%,SAT数学89%)。使用RLHF进行对齐,有害内容响应减少82%,幻觉减少60%。GPT-4的发布推动AI应用进入新阶段。

统一文本生成框架

Colin Raffel等人的T5(JMLR 2020)将所有NLP任务统一为文本到文本格式。翻译格式化为"translate English to German: ",分类格式化为"sentiment: " → "positive/negative"。在C4数据集(750GB清洗后网页文本)上训练,系统性对比了数十种预训练目标、架构、数据集和迁移方法。T5-XXL(11B参数)在SuperGLUE上接近人类水平,为生成式任务提供强大基线。


四、基础架构与通用技术

正则化技术的发展

Nitish Srivastava, Geoffrey Hinton等人的Dropout(JMLR 2014)通过训练时随机丢弃神经元防止过拟合。Dropout使神经元之间不会过度共适应,训练时采样指数级数量的"变薄"网络,测试时使用完整网络但权重按比例缩放。这一简单而有效的技术显著提升了视觉、语音识别、文本分类等监督学习任务的性能,成为深度学习最广泛使用的正则化方法。

Sergey Ioffe和Christian Szegedy的Batch Normalization(ICML 2015)解决了深层网络训练不稳定的问题。对每个mini-batch的层输入进行归一化(零均值,单位方差),引入可学习的缩放和平移参数保持表达能力。Batch Normalization减少了内部协变量偏移,允许使用更高学习率,在某些任务上可减少14倍训练步数。BN减少了对权重初始化的敏感性,在某些情况下可替代Dropout,成为ResNet、Inception等现代架构的标准组件。

Jimmy Lei Ba等人的Layer Normalization(2016)针对BN的局限性提出改进。在单个训练样本的层内所有神经元上归一化,不依赖batch大小,特别适合RNN。Layer Normalization在Transformer架构中成为标准组件(BERT、GPT等),显著提升RNN训练速度和泛化性能,启发了Group Norm、Instance Norm等归一化变体。

激活函数的演进

Vinod Nair和Geoffrey Hinton的ReLU(ICML 2010)通过f(x) = max(0, x)的简单形式revolutionize了深度学习。ReLU在正区间梯度恒为1,解决了sigmoid和tanh的梯度消失问题。只需比较和加法运算,计算效率远超需要指数运算的sigmoid和tanh。ReLU自然产生稀疏激活(约50%神经元激活),有利于特征学习,使得无需无监督预训练就能训练深层网络成为可能。

ReLU家族不断演进。Leaky ReLU为负输入提供小的非零梯度(f(x) = max(αx, x),α=0.01),防止神经元"死亡"。何恺明等人的PReLU(ICCV 2015)将负区间斜率作为可学习参数,允许网络自适应调整激活函数特性。ELU(ICLR 2016)负区间使用指数函数推动激活均值接近零,提供去噪效果。

GELU(Gaussian Error Linear Unit)在Transformer模型中成为首选。函数形式f(x) = x · Φ(x)提供平滑可微的ReLU近似,具有随机正则化特性。GELU引入概率视角,输入按其百分位加权,在BERT、GPT系列等自然语言处理任务中表现优异。

优化算法的革新

John Duchi等人的AdaGrad(JMLR 2011)为每个参数自适应调整学习率,累积历史梯度的平方和。AdaGrad对频繁更新的参数降低学习率,对稀疏参数提高学习率,特别适合稀疏特征学习。但学习率单调递减在后期可能过小导致训练停滞。

Geoffrey Hinton在Coursera课程中提出的RMSprop(2012)使用梯度平方的指数移动平均代替累积和,引入衰减率控制历史梯度影响,解决了AdaGrad学习率衰减过快的问题。RMSprop在非凸优化表面收敛更快,在RNN训练中表现良好。

Diederik Kingma和Jimmy Ba的Adam(ICLR 2015)结合了Momentum和RMSprop的优点,成为当前最流行的优化器。Adam同时维护梯度的一阶矩(均值)和二阶矩(未中心化方差)估计,包含偏差修正机制补偿初始化偏差。Adam对超参数不敏感,默认值(β1=0.9, β2=0.999)通常就能取得良好效果。Adam在梯度稀疏、噪声大、非平稳目标等情况下都保持稳定,成为GPT、BERT等大模型训练的标准选择。

迁移学习的范式

迁移学习通过复用预训练模型学到的特征表示,在新任务上用更少数据和计算资源达到更好效果。预训练模型的早期层学到的通用特征(如边缘、纹理)可以迁移到新任务。两阶段训练(预训练+微调)显著缩短训练时间,避免了小数据集上从头训练的过拟合问题。

在计算机视觉中,ImageNet预训练的ResNet、VGG、Inception、EfficientNet成为标准基础模型。在自然语言处理中,Word2Vec、GloVe提供了预训练词嵌入,BERT、GPT系列、T5提供了上下文化表示。迁移学习使深度学习在资源受限场景变得实用,催生了基础模型(Foundation Models)的概念,降低了深度学习的应用门槛。

自监督学习的突破

Ting Chen等人的SimCLR(ICML 2020)开创了对比学习的简化框架。最大化同一图像不同增强视图之间的一致性,组合裁剪和颜色扭曲的数据增强是关键。投影头在表示和对比损失之间引入可学习非线性变换。大batch和长训练使对比学习更有效。SimCLR在ImageNet上自监督预训练的线性分类器达到76.5% top-1准确率,仅用1%标注数据微调达到85.8% top-5准确率。

SimCLR推动了自监督学习在视觉领域的发展,启发了MoCo、BYOL、SwAV等大量对比学习方法,证明了大规模无监督预训练的有效性。自监督学习为视觉基础模型的发展铺平道路,影响了CLIP等多模态学习的设计。

少样本学习的探索

少样本学习使模型能够从极少样例(1-5个)中学习新概念。Prototypical Networks为每个类别计算原型表示,通过比较query样本与原型距离分类。Chelsea Finn等人的MAML(ICML 2017)提出模型无关元学习框架,学习一个好的参数初始化使模型在新任务上只需少量梯度步骤就能快速适应。MAML通过二阶优化(梯度的梯度)优化初始化参数,在Omniglot和MiniImageNet上达到state-of-the-art。

少样本学习在医疗诊断(罕见疾病识别)、个性化推荐(新用户快速适应)、机器人学习(从少量演示学习新技能)等领域有重要应用。少样本学习推动了元学习研究发展,使深度学习在数据稀缺场景变得可行,为构建更通用AI系统提供了方向。


技术发展的核心脉络

从2000年到2025年,机器学习到深度学习的发展呈现清晰的演进脉络。传统机器学习时代建立了坚实的理论基础,SVM的最大间隔原理、AdaBoost的自适应组合、Random Forest的集成学习为后续发展提供了重要思想。

2012年AlexNet的突破开启了深度学习革命。GPU并行训练、ReLU激活函数、Dropout正则化的协同作用使深层网络训练成为可能。随后的VGGNet、GoogLeNet、ResNet、DenseNet、EfficientNet持续探索网络深度、模块化设计、残差学习、特征复用、模型缩放,将ImageNet分类准确率从AlexNet的84.7%提升到EfficientNet-B7的84.3%,错误率降低超过70%。

2020年Vision Transformer的出现标志着视觉领域进入新时代。ViT、DeiT、Swin Transformer证明了纯Transformer架构在视觉任务的可行性,打破了CNN统治计算机视觉20多年的局面。目标检测和图像分割技术从R-CNN到Faster R-CNN、YOLO系列、SSD,从FCN到U-Net、Mask R-CNN、DeepLab系列,在精度和速度上都取得巨大进步。

自然语言处理经历了从词嵌入到循环网络、从Seq2Seq到注意力机制、从Transformer到BERT和GPT系列的演进。2017年Transformer的"Attention Is All You Need"开启了新纪元,2018年BERT和GPT-1确立了双向编码和单向生成两大范式,2020年GPT-3展示了规模定律和涌现能力,2023年GPT-4带来多模态能力,ChatGPT使AI进入大众视野。

基础技术的持续创新为这些突破提供了支撑。Dropout、Batch Normalization、Layer Normalization解决了训练稳定性和过拟合问题。ReLU及其变体解决了梯度消失问题。AdaGrad、RMSprop、Adam优化器提升了训练效率。迁移学习、自监督学习、少样本学习拓展了深度学习的应用边界。

当前,深度学习正朝着更大规模、更通用、更高效的方向发展。Transformer架构统一了视觉、语言、多模态任务。基础模型(Foundation Models)通过大规模预训练获得通用能力,在下游任务上快速适应。模型压缩、量化、蒸馏技术使大模型在边缘设备部署成为可能。自监督学习和少样本学习减少了对标注数据的依赖。可解释性、公平性、安全性成为重要研究方向。

从机器学习到深度学习的25年发展历程,见证了人工智能从理论到实践、从学术到产业、从专家工具到大众应用的巨大转变。这些技术创新不仅推动了科学进步,更深刻地改变了人类社会,开启了通向人工通用智能(AGI)的探索之路。

机器学习 → 深度学习:讲义海报

ML → DL: One-Page Poster

  1. 三个阶段 Three Eras
    • 传统机器学习(~2012):凸优化、特征工程、可解释;SVM/GBDT/RF。
    Classical ML (~2012): Convex optimization, feature engineering, interpretability; SVM/GBDT/RF.
    • 深度学习·视觉革命(2012–2020):端到端学习,CNN 系列;检测/分割全面突破。
    Deep Learning—Vision (2012–2020): End-to-end representation with CNNs; breakthroughs in detection/segmentation.
    • Transformer 统一范式(2020–):注意力统一视觉/语言/多模态;预训练 → 微调。
    Transformer Era (2020–): Attention unifies vision/language/multimodal; pretrain → finetune.

  1. 关键里程碑 Key Milestones
    • 1995 SVM:最大间隔 + 核技巧 → 强泛化。
    1995 SVM: Max-margin + kernel trick → strong generalization.
    • 2001 RF / 2001 GBDT:双随机性;函数空间梯度下降。
    2001 RF / 2001 GBDT: Double randomness; functional gradient boosting.
    • 2012 AlexNet:GPU + ReLU + 数据增强 + Dropout → ImageNet 大突破。
    2012 AlexNet: GPU + ReLU + augmentation + dropout → ImageNet breakthrough.
    • 2014 VGG / Inception:深/宽路径;小卷积堆叠与多尺度高效。
    2014 VGG / Inception: Deep/wide paths; small-kernel stacks & multi-scale efficiency.
    • 2015 ResNet:残差连接解决退化,超深网络可训。
    2015 ResNet: Residual connections solve degradation; very deep nets trainable.
    • 2015–2018 检测/分割:Faster R‑CNN / YOLO / SSD;FCN / U‑Net / Mask R‑CNN / DeepLab。
    2015–2018 Detection/Seg: Faster R‑CNN / YOLO / SSD; FCN / U‑Net / Mask R‑CNN / DeepLab.
    • 2017 Transformer:Attention is All You Need。
    2017 Transformer: Attention is All You Need.
    • 2018–2020 BERT / GPT / T5:预训练范式确立,规模定律涌现。
    2018–2020 BERT/GPT/T5: Pretraining paradigm; scaling laws & emergent abilities.
    • 2020–2021 ViT / DeiT / Swin:Transformer 进入视觉并站稳脚跟。
    2020–2021 ViT/DeiT/Swin: Transformers solidify in vision.

  1. 痛点 → 解法 Pain Points → Solutions
    • 梯度消失/难训练 → ReLU/GELU,BatchNorm/LayerNorm,Residual。
    Vanishing gradients/hard training → ReLU/GELU, BN/LN, residuals.
    • 过拟合 → 数据增强、正则化、Dropout、蒸馏。
    Overfitting → Augmentation, regularization, dropout, distillation.
    • 算力受限 → Inception 瓶颈、EfficientNet 缩放、Swin 局部注意力。
    Compute limits → Inception bottlenecks, EfficientNet scaling, Swin local attention.
    • 迁移困难/数据少 → 预训练 + 微调;自监督(SimCLR/MoCo/BYOL)。
    Transfer/data scarcity → Pretrain + finetune; self-supervised learning.

  1. NLP 线路图 NLP Track
    • 词向量 Word Embeddings:Word2Vec/GloVe → 分布式语义。
    Word2Vec/GloVe → distributed semantics.
    • 序列建模 Sequence Models:LSTM/GRU → 长依赖。
    LSTM/GRU → long dependencies.
    • Seq2Seq + 注意力:动态对齐。
    Seq2Seq + attention → dynamic alignment.
    • Transformer → 基础模型:BERT(理解) / GPT(生成) / T5(统一文本到文本)。
    Transformer → Foundation Models: BERT (understanding) / GPT (generation) / T5 (text-to-text).

  1. 视觉线路图 Vision Track
    • CNN 家族:AlexNet → VGG → Inception → ResNet → DenseNet → EfficientNet。
    CNN family progression as above.
    • 检测 Detection:R‑CNN 系列(两阶段)vs YOLO/SSD(单阶段)。
    Two‑stage vs one‑stage detectors.
    • 分割 Segmentation:FCN / U‑Net / Mask R‑CNN / DeepLab。
    Semantic & instance segmentation milestones.
    • ViT 家族 ViT Family:ViT / DeiT / Swin → 注意力统一视觉。
    Attention unifies vision tasks.

  1. 工程底座 Engineering Enablers
    • 优化 Optimizers:SGD+Momentum / RMSprop / Adam。
    • 归一化 Normalization:BN / LN / GN。
    • 激活 Activations:ReLU / Leaky / PReLU / ELU / GELU。
    • 训练技巧 Training tricks:Warmup、Cosine LR、混合精度、梯度裁剪。
    • 部署 Deployment:ONNX/TensorRT、量化/蒸馏、服务化(TorchServe/FastAPI)。

  1. 迁移与自监督 Transfer & Self-Supervised
    • 迁移学习 Transfer Learning:ImageNet/ResNet、BERT/GPT 作为预训练骨干。
    Use pretrained backbones to cut data & compute.
    • 自监督 Self-Supervised:SimCLR/MoCo/BYOL;线性探测 & 小样本微调。
    Contrastive learning; linear probe & few-shot finetuning.

  1. 面向实践的学习路径 Practical Roadmap
    • 起步 Baseline:
    • CV:ResNet 或 ViT 分类 + 迁移学习。
    CV: ResNet/ViT classification + transfer.
    • NLP:BERT 文本分类 + GPT 推断/微调。
    NLP: BERT classification + GPT inference/finetune.
    • 自监督:复现 SimCLR 线性探测。
    Self-supervised: SimCLR linear probe.
    • 进阶 Advanced:检测/分割、检索/多模态(CLIP)、高效部署(量化/蒸馏)。
    Detection/seg, multimodal (CLIP), efficient deployment.
    • 方法论 Methodology:问题→基线→增量实验→复盘。
    Problem → baseline → incremental experiments → retrospection.

  1. 一句话总括 One-Liner

更强的表示 + 更稳的训练 + 更大的数据与算力 驱动了从 ML → DL → Transformer 的三次跃迁;预训练与自监督把能力沉淀成“基础模型”,正重塑各领域应用。
Stronger representations + stabler training + larger data/compute drive the ML → DL → Transformer leaps; pretraining & self-supervision crystallize capabilities into foundation models reshaping applications.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/942715.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java三大特性

OOP 面向对象三大特性:封装、继承、多态、(抽象) 1.封装 只暴露对象的公开属性和方法,无法看到内部实现过程;对象功能内聚,模块之间的耦合降低,更有维护性。 设计模式七大原则之一的迪米特原则,是对封装的具体要…

日总结 15

C# 和 Java 作为两种主流的面向对象编程语言,虽语法相似(均源于 C 系),但在设计目标、生态、特性等方面差异显著,核心区别可总结如下:历史与定位 C#:微软 2000 年推出,早期绑定 Windows 的.NET Framework,后通…

[CF 516 E] Drazil and His Happy Friends

A 侧有 \(n\) 个点,B 侧有 \(m\) 个点,从 \(0\) 开始标号。已知初始有若干黑点,其它都是白点。第 \(i\)(\(i \ge 0\))时刻,若 A 的第 \(i \bmod n\) 个点和 B 的第 \(i \bmod m\) 个点中存在一个黑色的点,则两个…

NVIDIA Triton服务器漏洞危机:攻击者可远程执行代码,AI模型最高权限告急

NVIDIA Triton服务器漏洞危机:攻击者可远程执行代码,AI模型最高权限告急漏洞概述NVIDIA公司面向Windows和Linux系统的Triton Inference Server(一个用于大规模运行人工智能模型的开源平台)近日披露了一组安全漏洞,…

高级程序设计第二次作业

姓名:王志勇 学号:102500434 3.11编程题第一到第八题: 1. 2. 3. 4. 5. 6. 7. 8. 3.1-3.5,3.8-3.9的示例程序结果输出: 3.1 3.2 3.3 3.4 3.5 3.8 3.9

10月21日日记

1.今天进行工程实训,了解机床操作 2.明天学习高数 3.哈希冲突有哪些解决方法?哪种效率最高?

home-assistant.-Adding integrations

Edit the dashboard(编辑仪表板) Dashboards are customizable pages to display information about your smart home devices.Dashboards, cards, and views The screenshot shows an Overview dashboard with man…

lgP14254 分割(divide)

lg scp-s模拟赛T2 场上计数的部分调了很久没过。 主要讲一下场上的思路吧,可能有点乱。 首先可以发现每个节点子树的深度集合可以表示成一个上界和一个下界。 下界是节点本身的深度,上界是节点子树里最深的节点的深度…

idea快捷键和注释、关键字、数据类型

idea快捷键和注释、关键字、数据类型快捷键 psvm:public static void main(String[] args) {} sout:System.out.println(); 注释 单行注释:// 多行注释:/* / 文档注释: /* * * */ 关键字基本数据…

Windows版本的Emacs如何选择字体(Linux也一样,KIMI)

Windows版本的Emacs如何选择字体(Linux也一样,KIMI)TITLE: Windows版本的Emacs如何选择字体(Linux也一样,KIMI) 本文为和AI大模型助手KIMI的对话内容,仅供参考。 Emacs应该如何选择字体? User: Windows版本的E…

2025.10.21

今天上午工程实训课学习激光加工打印名牌和在手机壳上刻字,中午吃了小蛋糕,下午帮学长拿资料,所以早起了一会去教室,晚上吃了水果,然后上养生与健身课。

化学同位素

质子数相同而中子数不同的同一元素的不同核素互称为同位素。 例如:氢有三种同位素,氕(H)、氘(D,重氢)、氚(T,超重氢);碳有多种同位素,12C、13C和 14C(有放射性)等。同位素元素图同位素具有相同原子序数的…

equal和hashcode

equal和hashcode目录equal和hashcode核心代码示例hashCode() 方法哈希码哈希码原理equals()与hashcode()的联系图形展示完整的示例代码 核心代码示例 public boolean equals(Object o) {if (this == o) return true;if…

Windows系统内存占用过高,且任务管理器找不到对应进程

Windows系统内存占用过高,且任务管理器找不到对应进程 现象描述 开机后系统卡顿,任务管理器查看内存占比达到90%+,统计APP实际消耗内存远小于标称占比。 解决方案cmd输入resmon打开资源监视器 按照工作集内存占用大…

NOIP 二十五

树哈希+类折半搜索+图论+最短路树A. 容易发现对于一个节点 \(u\) ,其有 \(v\) 棵子树是同构的,那么总方案数将乘上 \(v!\) 。 根节点可能也会参与这种交换,为了避免这种讨论,我们将重心设为根进行 dfs 。 当存在两…

理想婚姻

理想婚姻 # 理想婚姻 纵观我的成长经历,长辈们婚姻历史给我最多的感受是执子之手与子偕老,并风雨同舟携手共进。在种淳朴的农村婚姻思想里潜移默化的成长了。爷爷奶奶他们那一代人,风里雨里坎坎坷坷,历经了国家的各…

php如何生成6位不重复的字符串

PHP如何生成6位不重复的字符串 在Web开发中,经常需要生成不重复的随机字符串用于验证码、短链接、订单号等场景。本文将深入探讨7种PHP生成6位不重复字符串的方法,分析它们的实现原理、性能表现和适用场景。 一、需求…

「清华集训2014-主旋律」题解

题解记录P11714 [清华集训 2014] 主旋律 pref 怎么新赛季就开始了。 一直想补岁月,但至今没有实现,也就只好先从主旋律下手。我该在哪里停留?我问我自己。sol 题意就是求删后原图仍强联通的有向边删边方案数。 强联…

Hetao P5593 删 题解 [ 蓝 ] [ 线性 DP ] [ DFS 序 ] [ 虚树 ]

删:思路很新奇的一道 DP 题。 通常做树形 DP 都是自底向上进行 DP 的,而此题因为转移与 DFS 序有关,所以可以拍在 DFS 序上 DP。 观察删除的性质,发现一个点 \(u\) 要么被删掉,不进行匹配,要么就必须要与 \(\bm{…

第二次高级程序作业

2025高级语言程序设计 https://edu.cnblogs.com/campus/fzu/gjyycx/homework/13570 102500426康凯帆书本外额外的题目程序清单3.11练习题 做完这些练习题,让我对于c语言有了更深的了解,以往都是听理论模模糊糊,现在…