AlexNet论文代码阅读

论文标题: ImageNet Classification with Deep Convolutional Neural Networks
论文链接: https://volctracer.com/w/BX18q92F
代码链接: https://github.com/dansuh17/alexnet-pytorch

内容概述

训练了一个大型的深度卷积神经网络,将ImageNet LSVRC-2010竞赛中的120万张高分辨率图像分类到1000个不同的类别中。在测试数据上取得了37.5%的top-1错误率(top-1错误率是指其正确标签不是模型认为最可能的标签的比例)和17.0%的top-5错误率(其正确标签不是模型认为最可能的五个标签中的比例)。该神经网络包含6000万个参数和65万个神经元,由五个卷积层(其中一些后面跟着最大池化层)和三个全连接层组成,最后是一个1000路softmax。为了加快训练速度,使用了非饱和神经元和卷积运算的高效GPU实现。
网络结构图

一、架构

1.1多GPU训练

上图的网络架构图,分布在两个GPU中,只有第3层的卷积核是从第2层的所有卷积核映射中获取输入的,其他卷积核都只从同一GPU的卷积核映射中获取输入。两个GPU学习到的卷积核表现出不同的学习效果,这是受限连接性的结果。GPU1上的核在很大程度上与颜色无关,而GPU2上的核在很大程度上与颜色相关。
在这里插入图片描述

1.2使用ReLu

使用非饱和非线性激活函数(ReLU)替换了饱和非线性激活函数(tanh)加快训练。下图可以看出使用ReLu比tanh快几倍。
在这里插入图片描述

1.3局部响应归一化

局部归一化有助于该网络泛化。
局部响应归一化层加在了第一层和第二层卷积层后,最大池化层前。
b x , y i = a x , y i / ( k + α ∑ j = m a x ( 0 , i − n / 2 ) m i n ( N − 1 , i + n / 2 ) ( a x , y j ) 2 ) β b_{x,y}^i=a_{x,y}^i/(k+α\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a_{x,y}^j)^2)^β bx,yi=ax,yi/(k+αj=max(0,in/2)min(N1,i+n/2)(ax,yj)2)β
a x , y i a_{x,y}^i ax,yi表示在位置(x,y)应用核i后再应用ReLU非线性函数计算出的神经元活动。 b x , y i b_{x,y}^i bx,yi表示响应归一化活动。求和遍历再相同空间位置的n个相邻内核映射,N是该层中内核的总数。k,n,α,β是超参数,k=2,n=5,α=0.0001,β=0.75。

1.4 重叠池化

令kernel-size>stride达到重叠池化。

二、减少过拟合

2.1 数据增强

Ⅰ图像平移和水平翻转
通过从256 * 256图像中提取随机的224 * 224补丁,使训练集大小增加了2048倍—— ( 256 − 224 ) 2 ∗ 2 (256-224)^2 *2 (256224)22,测试时提取5个224 * 224的补丁(四个角补丁和中心补丁)及其水平反射(共十个补丁)来进行预测,并在网络的softmax层对十个补丁的预测进行平均。
Ⅱ 改变训练图像中的RGB通道的强度
在整个ImageNet训练集的RGB像素值集合上执行PCA。对于每个训练图像,找到其协方差矩阵的特征向量与特征值,计算 Δ I = [ p 1 , p 2 , p 3 ] [ α 1 λ 1 , α 2 λ 2 , α 3 λ 3 ] T \Delta I = [p_1,p_2,p_3][α_1λ_1,α_2λ_2,α_3λ_3]^T ΔI=[p1,p2,p3][α1λ1,α2λ2,α3λ3]T
其中 p i , λ i p_i,λ_i pi,λi是RGB像素值3x3协方差矩阵的第i个特征向量和特征值, α i α_i αi是从均值为零,标准差为0.1的高斯分布中抽取的随机变量。在每个RGB图像像素 I x y = [ I x y R , I x y G , I x y B ] I_{xy}=[I_{xy}^R,I_{xy}^G,I_{xy}^B] Ixy=[IxyR,IxyG,IxyB]中添加 Δ I \Delta I ΔI
该方案近似地捕捉了自然图像的一个重要属性,即物体身份对光照强度和颜色的变化是不变的。

2.2 dropout丢弃法

在前两个全连接隐藏层中使用了dropout,以0.5的概率将每个隐藏神经元的输出设置为零。在测试中,使用全部神经元,但将其输出乘以0.5。dropout会减少神经元对其他特定神经元的依赖。

三、网络的细节,

使用了momentum,动量为0.9,权重衰减为0.0005,批次大小为128。
学习率为0.01,学习率在训练过程中,随学习轮次变小。每次除以10,进行了大约90次循环。

四、结果

在这里插入图片描述
在ILSVRC-2012竞赛中表现如下:
在这里插入图片描述
在这里插入图片描述

五、定性评估

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

核心代码

self.net = nn.Sequential(nn.Conv2d(in_channels=3, out_channels=96, kernel_size=11, stride=4),  # (b x 96 x 55 x 55)nn.ReLU(),nn.LocalResponseNorm(size=5, alpha=0.0001, beta=0.75, k=2),  # section 3.3nn.MaxPool2d(kernel_size=3, stride=2),  # (b x 96 x 27 x 27)nn.Conv2d(96, 256, 5, padding=2),  # (b x 256 x 27 x 27)nn.ReLU(),nn.LocalResponseNorm(size=5, alpha=0.0001, beta=0.75, k=2),nn.MaxPool2d(kernel_size=3, stride=2),  # (b x 256 x 13 x 13)nn.Conv2d(256, 384, 3, padding=1),  # (b x 384 x 13 x 13)nn.ReLU(),nn.Conv2d(384, 384, 3, padding=1),  # (b x 384 x 13 x 13)nn.ReLU(),nn.Conv2d(384, 256, 3, padding=1),  # (b x 256 x 13 x 13)nn.ReLU(),nn.MaxPool2d(kernel_size=3, stride=2),  # (b x 256 x 6 x 6))# classifier is just a name for linear layersself.classifier = nn.Sequential(nn.Dropout(p=0.5, inplace=True),nn.Linear(in_features=(256 * 6 * 6), out_features=4096),nn.ReLU(),nn.Dropout(p=0.5, inplace=True),nn.Linear(in_features=4096, out_features=4096),nn.ReLU(),nn.Linear(in_features=4096, out_features=num_classes),)self.init_bias()  # initialize biasdef init_bias(self):for layer in self.net:if isinstance(layer, nn.Conv2d):nn.init.normal_(layer.weight, mean=0, std=0.01)nn.init.constant_(layer.bias, 0)# original paper = 1 for Conv2d layers 2nd, 4th, and 5th conv layersnn.init.constant_(self.net[4].bias, 1)nn.init.constant_(self.net[10].bias, 1)nn.init.constant_(self.net[12].bias, 1)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/68884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

扩散模型(三)

相关阅读: 扩散模型(一) 扩散模型(二) Latent Variable Space 潜在扩散模型(LDM;龙巴赫、布拉特曼等人,2022 年)在潜在空间而非像素空间中运行扩散过程,这…

git基础使用--4---git分支和使用

文章目录 git基础使用--4---git分支和使用1. 按顺序看2. 什么是分支3. 分支的基本操作4. 分支的基本操作4.1 查看分支4.2 创建分支4.3 切换分支4.4 合并冲突 git基础使用–4—git分支和使用 1. 按顺序看 -git基础使用–1–版本控制的基本概念 -git基础使用–2–gti的基本概念…

8.攻防世界Web_php_wrong_nginx_config

进入题目页面如下 尝试弱口令密码登录 一直显示网站建设中,尝试无果,查看源码也没有什么特别漏洞存在 用Kali中的dirsearch扫描根目录试试 命令: dirsearch -u http://61.147.171.105:53736/ -e* 登录文件便是刚才登录的界面打开robots.txt…

【漫话机器学习系列】076.合页损失函数(Hinge Loss)

Hinge Loss损失函数 Hinge Loss(合页损失),也叫做合页损失函数,广泛用于支持向量机(SVM)等分类模型的训练过程中。它主要用于二分类问题,尤其是支持向量机中的优化目标函数。 定义与公式 对于…

Vue.js 使用 `teleport` 实现全局挂载

Vue.js 使用 teleport 实现全局挂载 今天我们来聊聊 Vue 3 中的一个实用功能&#xff1a;<Teleport> 组件。如果你曾在项目中需要将组件的部分内容渲染到全局位置&#xff0c;比如将模态框、通知等元素挂载到 body 下&#xff0c;那么 <Teleport> 将是你的好帮手。…

python算法和数据结构刷题[5]:动态规划

动态规划&#xff08;Dynamic Programming, DP&#xff09;是一种算法思想&#xff0c;用于解决具有最优子结构的问题。它通过将大问题分解为小问题&#xff0c;并找到这些小问题的最优解&#xff0c;从而得到整个问题的最优解。动态规划与分治法相似&#xff0c;但区别在于动态…

本地Deepseek添加个人知识库(Page Assist/AnythingLLM)

本地Deepseek两种方法建立知识库 前言 &#xff08;及个人测试结论&#xff09;法一、在Page Assist建立知识库step1 下载nomic-embed-textstep2 加载进Page Assiststep3 添加知识step4 对话框添加知识库 法二、在AnythingLLM建立知识库准备工作1.下载nomic-embed-text2.下载An…

Node.js 全局对象

Node.js 全局对象 引言 在Node.js中,全局对象是JavaScript环境中的一部分,它提供了对Node.js运行时环境的访问。全局对象在Node.js中扮演着重要的角色,它使得开发者能够访问和操作Node.js的许多核心功能。本文将详细介绍Node.js的全局对象,包括其特点、常用方法和应用场景…

记8(高级API实现手写数字识别

目录 1、Keras&#xff1a;2、Sequential模型&#xff1a;2.1、建立Sequential模型&#xff1a;modeltf.keras.Sequential()2.2、添加层&#xff1a;model.add(tf.keras.layers.层)2.3、查看摘要&#xff1a;model.summary()2.4、配置训练方法&#xff1a;model.compile(loss,o…

Android 音视频 --- EGL介绍和使用

EGL的功能 EGL API作为一套与OpenGL ES各个版本相互独立的API&#xff0c;其作用主要是管理绘图表面。EGL提供以下机制&#xff1a; 与设备的原生窗口系统通信查询绘图表面的可用类型和配置创建绘图表面在OpenGL ES3.0或其他渲染API之间同步渲染管理纹理贴图等渲染资源

【Proteus】NE555纯硬件实现LED呼吸灯效果,附源文件,效果展示

本文通过NE555定时器芯片和简单的电容充放电电路,设计了一种纯硬件实现的呼吸灯方案,并借助Proteus仿真软件验证其功能。方案无需编程,成本低且易于实现,适合电子爱好者学习PWM(脉宽调制)和定时器电路原理。 一、呼吸灯原理与NE555功能分析 1. 呼吸灯核心原理 呼吸灯的…

grpc 和 http 的区别---二进制vsJSON编码

gRPC 和 HTTP 是两种广泛使用的通信协议&#xff0c;各自适用于不同的场景。以下是它们的详细对比与优势分析&#xff1a; 一、核心特性对比 特性gRPCHTTP协议基础基于 HTTP/2基于 HTTP/1.1 或 HTTP/2数据格式默认使用 Protobuf&#xff08;二进制&#xff09;通常使用 JSON/…

文字投影效果

大家好&#xff0c;我是喝西瓜汁的兔叽&#xff0c;今天给大家分享一个常见的文字投影效果。 效果展示 我们来实现一个这样的文字效果。 思路分析 这样的效果如何实现的呢? 实际上是两组相同的文字&#xff0c;叠合在一块&#xff0c;只不过对应的css不同罢了。 首先&…

deepseek使用教程

一、准备工作 注册账号 访问 DeepSeek 官网&#xff08;如 https://www.deepseek.com/&#xff09;或对应平台。完成注册并登录&#xff0c;部分服务可能需要企业认证或申请权限。 获取 API 密钥&#xff08;如使用 API&#xff09; 进入控制台或开发者页面&#xff0c;创建 A…

Hutool工具类

Hutool 是一个非常流行的 Java 工具类库&#xff0c;它提供了丰富的功能来简化开发中的常见任务&#xff0c;比如文件操作、加密、日期处理、字符串操作、数据库工具等。它是一个轻量级的工具库&#xff0c;可以减少开发者编写常用代码的工作量&#xff0c;提高开发效率。 主要…

正态分布与柯西分布的线性组合与副本随机变量同分布

正态分布与柯西分布的线性组合与副本随机变量同分布 对于标准差为 σ \sigma σ&#xff0c;期望为0的正态分布&#xff0c;其概率密度函数为 f ( x ) 1 2 π σ exp ⁡ − x 2 2 σ 2 f(x) \frac{1}{\sqrt{2\pi}\sigma}\exp^{-\frac{x^2}{2\sigma^2}} f(x)2π ​σ1​exp−…

【C++语言】卡码网语言基础课系列----13. 链表的基础操作I

文章目录 背景知识链表1、虚拟头节点(dummyNode)2、定义链表节点3、链表的插入 练习题目链表的基础操作I具体代码实现 小白寄语诗词共勉 背景知识 链表 与数组不同&#xff0c;链表的元素存储可以是连续的&#xff0c;也可以是不连续的&#xff0c;每个数据除了存储本身的信息…

图像处理之图像灰度化

目录 1 图像灰度化简介 2 图像灰度化处理方法 2.1 均值灰度化 2.2 经典灰度化 2.3 Photoshop灰度化 2.4 C语言代码实现 3 演示Demo 3.1 开发环境 3.2 功能介绍 3.3 下载地址 参考 1 图像灰度化简介 对于24位的RGB图像而言&#xff0c;每个像素用3字节表示&#xff0…

MySQL的GROUP BY与COUNT()函数的使用问题

在MySQL中&#xff0c;GROUP BY和 COUNT()函数是数据聚合查询中非常重要的工具。正确使用它们可以有效地统计和分析数据。然而&#xff0c;不当的使用可能会导致查询结果不准确或性能低下。本文将详细讨论 GROUP BY和 COUNT()函数的使用方法及常见问题&#xff0c;并提供相应的…

【课题推荐】基于t分布的非高斯滤波框架在水下自主导航中的应用研究

水下自主导航系统在海洋探测、环境监测及水下作业等领域具有广泛的应用。然而&#xff0c;复杂的水下环境常常导致传感器输出出现野值噪声&#xff0c;这些噪声会严重影响导航信息融合算法的精度&#xff0c;甚至导致系统发散。传统的卡尔曼滤波算法基于高斯噪声假设&#xff0…