triplet loss后面不收敛_你的神经网络真的收敛了么?

1、为什么小模型的作为backbone效果会差?
在深度学习目标检测(图像分割)领域,我们发现当我们使用层数越深,并且在imagenet上表现越好的分类网络作为backbone时,它的检测和分割效果越好效果越好。比如我们使用resnet101作为backbone时候,faster_rcnn在coco2017检测数据集上的mAP可以达到40.1,而使用resnet50作为backbone时候,mAP只达到37.1。而ssd使用resnet50作为backbone时候,mAP达到30.6,使用mobilenet作为backbone只达到21.7。参看gluoncv公布的训练结果。

Detection - gluoncv 0.5.0 documentation​gluon-cv.mxnet.io
e3eb23d25c8d4b4e36a726c08cc86c6f.png

那为什么使用mobilenet这种小网络会比resnet101这种大网络效果差这么多呢?主流的想法是小网络的容量小、表现效果差,等等。

那到底是那么原因呢?我们可以观察gluoncv官网的ssd_mobilenet[1]和ssd_resnet50[2]在coco上的训练log。我们发现ssd_resnet50[2]的CrossEntropy和SmoothL1最终收敛到2.14+,和1.22+左右,而ssdmobilenet 的CrossEntropy和SmoothL1最终收敛到2.84+,和3.29+左右。同样我们可以去观察gluoncv官网的faster_rcnn分别在resnet50和在resnet101上的训练loss,我们可以发现loss收敛的越小模型在coco 2017的验证集上的mAP越高。并且当backbone使用fpn的方法增大了模型的体积,模型的loss会将的更低,相应的mAP也越高。由此我个人认为使用小模型的作为backbone的迁移学习任务(尤其是目标检测任务)效果差的真正原因是模型欠拟合。

2、你的神经网络真的收敛了么?

既然知道小网络作为backbone效果差的真正原因是模型欠拟合,那如果我们要提高小网络的效果,最主要的任务就是降低小网络的loss(当然大网络的loss如果被进一步降低效果自然越好,比如可以观看faster_rcnn+fpn+resnet101就比faster_rcnn+resnet101的loss低一点点,当然效果也就提升一点点)。

而我们不妨假设如果小网络最终”收敛“的loss如果可以达到大网络收敛的loss,那小网络能否达到大网络的效果呢?可能由于小网络的容量小,参数少,很难收敛到大网络的最终收敛的loss。当然方法是人想的,不然怎么能发paper。

我个人认为降低小网络的loss主要有两种方式:

1、提高效果的模型体积,如FPN,DLA,shortcut,concat 等等。不过当模型体积增大到一定程度,他所能得到的收益也越小,比如可以观看gluoncv官网的log。faster_rcnn+fpn+resnet101就比faster_rcnn+resnet101的loss低一点点,当然效果也就提升一点点。而faster_rcnn+fpn+resnet50就比faster_rcnn+resnet50的loss低很多,当然效果也就提升也高了很多。

2、改变训练方式,比如很早提出的知识蒸馏,2018年的cascade rcnn和snip,以及2019年的各种anchor free,都是改变训练方式,虽然他们的动机各不相同,但是我觉得大部分都是进一步降低loss,提高模型的效果。

第一种方式对于个人觉得对于做模型压缩的人来说不太可取,而第二种方式才是主要考虑方向。对于改变训练方式的方法,读者可以参看我的上一篇文章,对抗蒸馏,使用对抗生成网络和cosine attention的机制,将大网络的知识迁移到小网络,进一步降低小网络最终的收敛loss。目前开放的使用ssd_resnet50作为teacher net ssd_mobilenet作为student net在voc数据集上将ssd_mobilenetCrossEntropySmoothL1最终收敛到1.388+ 0.659+,mAP达到78.2+,而原始ssd_mobilenet在voc上的CrossEntropySmoothL1最终收敛到1.962+ 0.944+,mAP达到75.4,由于gpu资源限制目前在coco上还没训练完。

疯狂三角肌:GAN-KD for one-stage object-detection​zhuanlan.zhihu.com

训练log地址为,记得给star啊。

p517332051/GAN-Knowledge-Distillation-SSD​github.com
8c1ab21eafee1dfc88e4ac5681f95b73.png

通过这种方法,我发现小网络并非不是不可以继续收敛,而是训练方式得到改善自然可以继续降低他的loss,而随之loss降低,网络的效果可以进一步提升。期望我的方法能起到抛砖引玉的效果,能推动学术界和工业界神经网络压缩的工作的进展。

参考

  1. ^https://raw.githubusercontent.com/dmlc/web-data/master/gluoncv/logs/detection/ssd_512_mobilenet1_0_coco_train.log
  2. ^abhttps://raw.githubusercontent.com/dmlc/web-data/master/gluoncv/logs/detection/ssd_512_resnet50_v1_coco_train.log

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/335424.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php文件上传漏洞waf,文件上传绕过WAF

文件上传文件上传实质上还是客户端的POST请求,消息主体是一些上传信息。前端上传页面需要指定enctype为multipart/from-data才能正常上传文件。此处不讲各种中间件解析漏洞只列举集几种safe_dog对脚本文件上传拦截的绕过靶机环境:win2003safe_dog4.0.239…

java性能监视_Java 9和应用程序性能监视的激动人心之处

java性能监视通过AppDynamics解决应用程序问题的速度提高了10倍–以最小的开销在代码级深度监视生产应用程序。 开始免费试用! 在当今的现代计算时代,软件创新的不断增强使我们更接近软件革命的时代。 也许在遥远的未来,这可能是对21世纪记忆…

Windows 系统如何查看本机的 IP 地址

查询本机外网IP地址 1.百度直接搜索“IP地址”,就可以看到了 2.输入命令curl -L tool.lu/ip 查询本机内网IP地址 1.控制面板-网络连接-查看属性 2.输入命令命令ipconfig或者ipconfig/all

C# 监控字段_有哪些好的C#开源项目推荐?

作者:码云 Gitee链接:https://www.zhihu.com/question/27993498/answer/1014561869

matlab 传输速率,处理速率转换 - MATLAB Simulink - MathWorks 中国

示例模型打开示例模型 rtwdemo_ratetrans。这种多速率、多任务模型包含几个在不同模式下运行的 Rate Transition 模块。open_system(rtwdemo_ratetrans);set_param(rtwdemo_ratetrans,SystemTargetFile,ert.tlc);set_param(rtwdemo_ratetrans,GenerateComments, Off);将 Rate T…

并行流 线程池_使用自定义线程池处理并行数据库流

并行流 线程池并行数据库流 在上一篇文章中 ,我写了关于使用并行流和Speedment并行处理数据库内容的文章。 在许多情况下,并行流可能比通常的顺序数据库流快得多。 线程池 Speedment是一个开源的Stream ORM Java工具包和Runtime Java工具,它…

MySQL关于check约束无效的解决办法

首先看下面这段MySQL的操作,新建一个含有a和b的表,其中a用check约束必须大于0,然而插入了一条(-2,1,1)的数据,其中a-2,也是成功插入的。 所以MySQL只是check,但是不强制check。 mysql> create table c…

hibernate框架 最新_java框架,使用最频繁的9个程序!

Java在多年的发展历程中,已证明自己是为软件开发而生的顶级通用编程语言。Java 广泛用于科学和教育,金融,法律和政府等许多行业。Java 是开源和面向对象的,其开发目的是使应用程序开发人员可以编写一次然后在任何地方运行。编译后…

php遍历目录与文件夹,介绍几种php遍历目录与文件夹的方法

介绍几个php遍历目录的方法,可以遍历目录及目录中的文件,供大家参考遍历目录或遍历目录下指定类型的文件,这是每一个童鞋在写程序的时候难免会用到的。PHP本身也提供了很多灰常有用的函数,正确地使用它们,不会有错滴。…

twilio_15分钟内使用Twilio和Stormpath在Spring Boot中进行身份管理

twilio建筑物身份管理,包括身份验证和授权? 尝试Stormpath! 我们的REST API和强大的Java SDK支持可以消除您的安全风险,并且可以在几分钟内实现。 注册 ,再也不会建立auth了! 今天,不到30秒左右…

unity webgl读写txt文件_python Files文件读写操作

今天学习python的Files文件读写操作,并记录学习过程欢迎大家一起交流分享。首先新建一个文本文件test.txt,内容如下:hello worldhello youhello mehello pythonhello universe然后新建一个python文件命名为py3_file.py,在这个文件中进行操作代…

matlab表达式,表达式 - MATLAB Simulink - MathWorks 中国

数组运算符如果矩阵不用于线性代数运算,则成为二维数值数组。数组的算术运算按元素执行。这意味着,加法和减法运算对数组和矩阵都是相同的,但乘法运算不相同。MATLAB 的乘法数组运算表示法中包含点,也就是小数点。运算符列表包括加…

数据库表的约束条件

文章目录1.主键约束2.非空约束3.唯一约束4.检查约束5.外键约束1.主键约束 主键约束可以用两种方式定义:列级主键约束和表级主键约束 列级主键约束演示: create table dept_htlwk( deptno varchar(20) primary key, --列级约束条件 dname varchar(20)…

垃圾收集 java_Java的内置垃圾收集如何使您的生活更美好(大部分时间)

垃圾收集 java通过从您的应用程序学习企业APM产品,发现更快,更有效的性能监控。 参加AppDynamics APM导览! “无需为用户编写将寄存器返回到自由存储列表的程序。” 这条线(以及随后的十几条线)被埋在约翰麦卡锡&…

python函数的使用方法_百度资讯搜索_python函数的使用方法

金生水起程序猿 2020年11月22日 11:23函数语法格式及调用参数:默认值、元组和字典可变参数的使用全局变量和局部变量作用域,局部变量如何升级为全局变量函数是可重复使用的,实现单一功能的代码块。可以把项...百度快照金生水起程序猿 2020年11月22日 12:13函数类型定义:python中…

项目建立数据库初始环境脚本文件的示例

-----------脚本文件 begin--------- alter table student drop constraint stu_mid_fk ; – 删除参照表约束 drop table student ; – 删除参照表( 从表 ) drop table major ; – 删除被参照表( 主表 ) create table major(…) ; – 创建被参照表( 主表 ) create table s…

php soap传值,在SOAP调用中传递PHP数组

所以我试图在我的SOAP请求中包含以下XML:someintsomeintsomeintsomeint我查看了this的帖子,这个帖子含糊不清,但它产生的输出如下:object(stdClass)#1 (1) {["Responses"]>object(stdClass)#2 (1) {["Response"]>array(2) {[0…

python获取一个月之前日期_利用python获取当前日期前后N天或N月日期的方法示例...

前言 最近因为工作原因,发现一个Python的时间组件,很好用分享出来!(忘记作者名字了,在这里先感谢了),下面话不多说,来一起看看详细的介绍吧。 示例代码: # -*- coding: u…

red hat 4.1.2_安装Red Hat Container Development Kit 2.2版本

red hat 4.1.2当应用程序开发人员或架构师负责探索容器化应用程序提供的可能性时,没有比“红帽容器开发套件”(CDK)容易的了。 Red Hat CDK具有本地OSX,Linux或Windows环境所需的所有Cloud工具,并且已预先配置了一些容…

数据库的视图

视图 View 视图也被称为虚表( 虚拟的表 ) , 视图对应于一条 Select 语句 , 这条查询语句得到的结果集被赋予一个名字 , 即视图的名字 , 此后可以像操作表一样操作这个视图 使用视图的主要目的是简化复杂查询 视图可以隐藏数据表的列 视图不包含任何数据。是基表数据的投影。…