实用指南:AI学习日记——深度学习

news/2025/11/8 22:27:28/文章来源:https://www.cnblogs.com/yangykaifa/p/19203198

目录

一、深度网络的设计与搭建

1. 深度CNN的架构设计

2. 网络深度化的优势分析

二、经典深度网络架构演进

1. VGG:深度堆叠

2. GoogLeNet:横向扩展

3. ResNet(残差网络):跨越连接

三、深度学习的高速化技术

1. GPU

2. 分布式学习

3. 运算精度

四、深度学习的多样化应用

1. 物体检测与图像分割

2. 多模态与图像描述

3. 生成模型与强化学习

五、深度学习的未来展望

1. 风格迁移

2. 自动驾驶的环境感知

3. Deep Q-Network(强化学习)

总结


一、深度网络的设计与实现

1. 深度CNN的架构设计

构建了一个比之前更深的CNN网络

网络结构

核心技术特征

  • 使用3×3的小型滤波器构建所有卷积层

  • 激活函数统一采用ReLU

  • 全连接层后引入Dropout防止过拟合

  • 使用Adam优化器进行参数更新

  • 采用He初始值进行权重初始化

通道数增长模式

16 → 16 → 32 → 32 → 64 → 64
随着网络深度增加,通道数逐步扩大,增强了网络的表达能力。

2. 网络深度化的优势分析

参数效率提升

通过叠加多个3×3小型滤波器,可以替代单个5×5大型滤波器,显著减少参数数量:

  • 2个3×3滤波器:2 × 3 × 3 = 18个参数

  • 等效的5×5滤波器:5 × 5 = 25个参数

  • 参数减少比例:28%

感受野(receptive field,给神经元施加变化的某个局部空间区域)扩展
叠加的3×3滤波器能够建立与大型滤波器相同的感受野,同时引入更多的非线性变换,增强模型表达能力。

分层特征学习
深度网络能够将复杂问题分解为层次化的简单子问题:

  • 底层学习边缘、角点等基础特征

  • 中层组合基础特征形成纹理、形状

  • 高层整合为物体部件和完整对象

二、经典深度网络架构演进

1. VGG:深度堆叠

架构特点

  • 16-19个有权重层

  • 连续使用3×3卷积层

  • 简单的重复堆叠模式,形成VGG块

设计哲学
依据深度堆叠小型滤波器,在保持感受野的同时减少参数数量,证明了网络深度对性能的关键影响。

2. GoogLeNet:横向扩展

Inception结构
在同一层级使用多种尺寸的滤波器(1×1, 3×3, 5×5),并行处理并融合结果,增加通道数

技术优势

  • 多尺度特征提取

  • 1×1卷积降低通道数减少计算量 (白色快)

  • 横向深度增加网络容量

3. ResNet(残差网络):跨越连接

残差学习
引入快捷连接(skip connection),学习残差映射F(x) = F(x) + x,而非直接学习F(x)。

核心创新

解决的关键问题

  • 缓解梯度消失问题

  • 支持极深网络训练(150+层)

  • ILSVRC 2015冠军,错误率3.5%

三、深度学习的高速化技术

1. GPU

性能对比

  • CPU训练AlexNet:40+天

  • GPU训练AlexNet:6天

  • 使用cuDNN优化:进一步加速

技术基础

  • CUDA并行计算架构

  • 矩阵运算的硬件优化

  • im2col方法与GPU的天然契合

2. 分布式学习

多GPU训练

  • 线性加速效果

  • 数据并行化处理

  • 模型参数同步更新

大规模分布式
100个GPU可实现56倍加速,将7天的训练缩短至3小时。

3. 运算精度

精度与效率的平衡

  • 32位单精度浮点数:标准选择

  • 16位半精度浮点数:2倍加速,精度基本无损

  • 1位二值化网络:极致压缩,嵌入式应用

四、深度学习的多样化应用

1. 物体检测与图像分割

R-CNN系列

  • 候选区域提取 + CNN分类

  • Fast R-CNN:效率优化

  • Faster R-CNN:端到端训练

全卷积网络(FCN)

  • 全连接1×1卷积层

  • 像素级语义分割

  • 一次前向处理完成全图分割

  • 最终通过逆卷积扩大到原图大小

2. 多模态与图像描述

NIC模型(CNN+RNN)

  • CNN提取视觉特征

  • RNN生成自然语言描述

  • 视觉与语言的跨模态理解

技术意义
构建了从像素到语义的跨越,展示了深度学习在困难认知任务上的潜力。

3. 生成模型与强化学习

生成对抗网络(GAN)

  • Generator生成逼真图像

  • Discriminator鉴别真伪

  • 对抗训练推动双方进步

五、深度学习的未来展望

1. 风格迁移

  • 分离图像内容与风格表示

  • 内容损失 + 风格损失联合优化

  • 生成具有不同风格的图像

2. 自动驾驶的环境感知

SegNet等分割网络

  • 实时像素级环境理解

  • 道路、车辆、行人精确识别

3. Deep Q-Network(强化学习)

从监督到无监督

  • 让AI通过试错自主学习,像人类学习骑自行车一样

  • 通过奖励机制来学习最优行为策略

潜在价值
减少对标注数据的依赖,解锁更大规模数据的学习潜力。


总结

本文环境介绍了深度学习的网络设计、高速化技术及多样化应用。在网络设计方面,重点分析了VGG、GoogLeNet和ResNet等经典架构的特点与创新,包括深度堆叠、多尺度特征提取和残差连接等科技。在高速化方面,探讨了GPU优化、分布式训练和运算精度平衡等加速方法。应用领域涵盖物体检测、图像分割、多模态理解、生成模型等前沿方向,并展望了风格迁移、自动驾驶和强化学习等未来发展趋势。文章展现了深度学习通过架构创新和技术优化,在计算机视觉等领域的强大表现力和广阔应用前景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/960029.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

赫尔曼黑塞《德米安》—生活之难,难在直面内心的自己

《德米安》开篇的第一句话: 我所渴望的, 无非是试着依我内心自发的本性去生活。为何如此之难?生活的难,似乎是刻在人生里的底色。生老病死的必然,悲欢起落的无常,得到时的辗转,失去时的拉扯。我们总轻易遗忘快乐…

安装openjdk21

安装openjdk211、打开应用商店,搜索openjdk,搜索结果列出多个版本的openjdk,如openjdk8、openjdk19、openjdk21等。 2、可以点击对应图标,进入详细信息查看版本,并进行安装。 3、安装后打开,如打开openjdk(长期维护…

中科麒麟passwd弱密码授权

中科麒麟桌面版默认拒绝“123456”这类弱密码,报错 “无效的密码:没有足够的字符种类”。 下面把亲测可行的修改步骤贴出来,复制-粘贴即可。1. 打开密码策略文件 sudo nano /etc/pam.d/common-password2. 定位到 pa…

暴字迹

都是平常笔记一类的字迹所以写的很潦草( 宣:CSP 2025 游记:https://www.luogu.com.cn/article/fz1ol19h CSP 2025 GD 迷惑行为大赏:https://www.luogu.com.cn/article/dihhq10t

体验CodeBuddy免费领取轻量云服务器

近期 AI 编程热潮席卷行业,各大科技厂商纷纷布局 AI IDE 赛道,推出专属开发平台。 腾讯也顺势入局,正式发布自研 AI IDE 工具 CodeBuddy。依托腾讯完善的产品生态,CodeBuddy 带来了一大核心亮点功能 ——“一句话落…

Git 命令完全手册

Git 命令完全手册 目录Git 基础配置 仓库操作 核心常用命令 分支操作 远程协作 查看信息 撤销与回退 标签管理 高级操作 故障排查1. Git 基础配置 # 查看配置 git config --list git config --global --list# 设置用户…

MySQL索引(三):字符串索引优化之前缀索引

MySQL系列文章 在数据库优化中,字符串字段的索引设计往往是个棘手的问题。过长字符串的完整索引会占用大量空间,而不合适的索引又会导致查询性能低下。今天我们来探讨一个平衡的艺术——前缀索引。字符串索引的现实挑…

ubuntu22 arm64 安装docker乱七八糟的报错解决方案

docker启动iptables v1.8.7 (legacy): Couldnt load match `conntrack:No such file or directory sudo modprobe xt_conntrackiptables v1.8.9 (legacy): cant initialize iptables table `filter: Table does not ex…

TOYOTA SYSTEMS Programming Contest 2025(AtCoder Beginner Contest 431)

A - Robot Balance点击查看代码 #include <bits/stdc++.h>using i64 = long long;void solve() {int a, b;std::cin >> a >> b;std::cout << std::max(0, a - b) << "\n"; }i…

AT_dwacon6th_prelims_e Span Covering

容斥个蛋,不如直接 DP。 考虑从大到小排序线段消掉一维限制,用连续段 DP 做,设 \(f_{i, j, k}\) 为前 \(i\) 条线段,分成了 \(j\) 个连续段,占了 \(k\) 个位置的方案数,考虑转移:单独成一段。 扩展一段。 连接两…

拓扑 AC 2025 线上 NOIP 联测 #1

100 + 10 + 0 + 0 = 110, Rank 21/44.[2025线上NOIP联测第三阶段] 模拟赛 1 链接:link 题解:暂无 时间:4.5h (2025.11.08 13:00~17:30) 题目数:4 难度:A B C D\(\color{#52C41A} 绿\)*1600估分:100 + 100 + 0 + …

VMware开机自启虚拟机及报错修复

本文介绍了Vmware将虚拟机开机自启的多种设置方法, 并附加多种报错的解决方法.包括:创建计划任务时要求输入密码, 报错"用户账户未知、密码错误或用户账户没有修改此任务的权限", VMware错误:以独占方式锁定…

AI浪潮下的冷思考:机遇、风险与未来

最近刷到几篇关于AI的新闻,让我这个学软件的对技术发展有了新想法。一方面,Kimi K2 Thinking这种万亿参数的开源模型横空出世,直接干翻了GPT-5,在TAU榜单上登顶,感觉国内AI真的杀疯了。但另一方面,大模型“读心”…

杂题思路 #1

2053 F - Earnest Matrix Complement 这题应该可以观察到,对于同一行,可以填充颜色的位置填上同一个颜色一定不劣。 可以先求出已知的贡献,然后对于一行,枚举上下出现的所有颜色,枚举其他颜色显然无意义, 可以设…

打开2个rider项目(窗口),从其中一个窗口拷贝到另一个窗口保存后,会自动跳回第一个窗口,如何保存后留在当前窗口

打开2个rider项目(窗口),从其中一个窗口拷贝到另一个窗口保存后,会自动跳回第一个窗口,如何保存后留在当前窗口2025-11-08 22:01 gdutzhulm 阅读(0) 评论(0) 收藏 举报取消以下选择即可

算起计算器APP,好看好用的多功能计算器

算起计算器APP介绍 算起计算器是一款多功能计算器应用,个人用户永久免费使用,提供多种计算功能,包括基础数值计算功能和扩展计算功能。 基础数值计算功能 包括:科学计算器进制计算器扩展计算功能 扩展计算功能即多…

鸿蒙语言基础学习经验分享:从困惑到渐入佳境

前言:为什么学习鸿蒙语言? 随着鸿蒙生态的快速发展,作为开发者不得不关注这个新兴的系统平台。我最初接触鸿蒙时,带着移动开发的经验,也带着许多疑问:鸿蒙开发到底有什么不同?ArkTS和Java/JS有什么区别?分布式…

修复达梦EFCore驱动布尔类型兼容问题

dm库相比其他库本身缺少一些语法差异,也可以说是缺陷。 比如: 0和1无法直接在sql中当作真假值用,where 0这种写法不支持,报错:查询使用值表达式作为过滤条件; t.field is null 也无法直接作为select项; 不支持O…

2021:【例4.6】最大公约数

提交数:98849 通过数: 64137 【题目描述】 求两个正整数m ,n 的最大公约数。 【输入】 输入m ,n 。 【输出】 m ,n 的最大公约数。 【输入样例】 4 6 【输出样例】 2 【提示】 【数据范围】 对于全部数据:m,n&l…

详细介绍:Java数据结构 - 二叉树

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …