机票售票网站开发网视易网站建设

pingmian/2026/1/25 13:57:29/文章来源:
机票售票网站开发,网视易网站建设,鞍山抖音seo新闻,能看全世界地图的app作者 | 刘姝 供稿 | 浪潮 MLPerf竞赛由图灵奖得主大卫帕特森#xff08;David Patterson#xff09;联合谷歌、斯坦福、哈佛大学等单位共同成立#xff0c;是国际上最有影响力的人工智能基准测试之一。在MLPerf V0.7推理竞赛开放赛道中#xff0c;浪潮信息通过模型压缩优…作者 | 刘姝 供稿 | 浪潮 MLPerf竞赛由图灵奖得主大卫·帕特森David Patterson联合谷歌、斯坦福、哈佛大学等单位共同成立是国际上最有影响力的人工智能基准测试之一。在MLPerf V0.7推理竞赛开放赛道中浪潮信息通过模型压缩优化算法取得性能大幅提升将ResNet50的计算量压缩至原模型的37.5%压缩优化后的ResNet50推理速度相比优化前单GPU提升83%8GPU提升81%基于浪潮NF5488A5服务器每秒最多可以处理549782张图片排名世界第一。本文将重点介绍浪潮在比赛中使用的模型压缩算法的设计思路、实现方式及效果。 1. 什么是模型压缩 为了提高识别准确率当前深度学习模型的规模越来越大。ResNet50参数量超过2500万计算量超40亿而Bert参数量达到了3亿。不管是训练还是推理部署这对平台的计算能力和存储能力都提出了非常高的要求。当前深度学习已经发展到部署应用普及阶段在移动端/嵌入式端设备计算/存储资源是有限的大模型难以适用。 很多深度神经网络中存在显著的冗余仅仅训练一小部分原来的权值参数就有可能达到和原网络相近的性能甚至超过原网络的性能[1]。这给模型压缩带来了启发。 模型压缩是通过特定策略降低模型参数量/计算量使其运行时占用更少的计算资源/内存资源同时保证模型精度满足用户对模型计算空间、存储空间的需求从而能够将模型更好地部署在移动端、嵌入式端设备让模型跑得更快、识别得更准。 2.常用模型压缩方法 模型压缩有多种实现方法目前可分为5大类 1模型裁剪 实现方式对网络中不重要的权重进行修剪降低参数量/计算量。 使用方式分为非结构化裁剪与结构化裁剪非结构化裁剪需结合定制化软硬件库结构化裁剪无软硬件限制。 2模型量化 实现方式以低比特位数表示网络权重如fp16/8bit/4bit/2bit降低模型的占用空间进行推理加速。 使用方式需要定制化软硬件支持如TensorRT、TVM。 3知识蒸馏 实现方式迁移学习的一种用训练好的“教师”网络去指导另一个“学生”网络训练。 使用方式大模型辅助小模型训练来帮助小模型提升。 4精度紧凑网络 实现方式设计新的小模型结构如MobileNet、ShuffleNet。 5低秩分解 实现方式将原来大的权重矩阵分解成多个小的矩阵。 使用方式现在模型多以1x1为主低秩分解难以压缩目前已不太适用。 上述几种模型压缩技术中模型量化对推理部署软硬件的要求较高知识蒸馏一般用来辅助提高精度紧凑网络模型结构相对固定低秩分解不适用目前主流模型结构。而模型裁剪可以对模型结构灵活压缩满足用户对计算量/参数量的需求且压缩后的模型仍可保持较高精度本文将重点介绍模型裁剪方法。 3. 模型裁剪相关技术 如前所述模型裁剪分为非结构化裁剪与结构化裁剪。非结构化裁剪是一种细粒度裁剪通过裁剪掉某些不重要的神经元实现优点是裁剪力度较大可将模型压缩几十倍缺点是裁剪后的模型部署需要定制化的软硬件支持部署成本较高。而结构化裁剪是一种粗粒度裁剪一般有channel、filter和shape级别的裁剪这种方法裁剪力度虽然不像非结构化裁剪力度那么大但好处是裁剪后的模型不受软硬件的限制可以灵活部署是近几年模型压缩领域研究者/公司的研究热点。本文我们重点研究结构化裁剪。 结构化模型裁剪近几年涌现很多优秀论文压缩成绩不断被刷新压缩技术从手动化结构裁剪进化到基于AutoML的自动化结构化裁剪。以下是几种代表性的方法 1将训练好的模型进行通道剪枝channel pruning[2]。通过迭代两步操作进行第一步是channel selection采用LASSO regression来做第二步是reconstruction基于linear least squares来约束剪枝后输出的feature map尽可能和减枝前的输出feature map相等。 2麻省理工学院韩松团队提出了一种模型压缩方法[3]其核心思想是使用强化学习技术来实现自动化压缩模型。它不是对网络结构的路径搜索而是采用强化学习中的DDPG深度确定性策略梯度法来产生连续空间上的具体压缩比率。 3基于元学习的自动化裁剪方法[4]分三步实现首先生成元网络进行权重预测然后基于元网络利用遗传进化算法进行裁剪模型结构搜索最后筛选出符合要求的裁剪模型结构对候选模型进行训练。 4. 对ResNet50模型的压缩优化 我们选择Resnet50进行模型压缩。从MLPerf竞赛开始至2022年而Resnet50始终是图像分类任务的基准模型是计算机视觉领域模型的典型代表。 在裁剪方法的选择上我们采用基于AutoML的自动化裁剪方法。该方法的优势是可以灵活定义搜索空间从而灵活裁剪出所需要的任何模型结构。Resnet50的裁剪要求可概括为“快且准”实现方法分以下三步 第一与MetaPruning类似首先生成一个“超网络”为后续搜索出的裁剪模型生成权重及预测精度。 第二优化搜索空间。自动化模型裁剪方法会基于特定方法对裁剪模型进行搜索搜索方法与搜索效率直接影响到目标模型的质量我们对模型裁剪的搜索空间与搜索方法进行了深度优化。这一步是搜索出符合预期的最优裁剪模型结构的关键也是对Resnet50模型裁剪优化的关键技术点。 传统方法在裁剪时一般以模型的计算量/参数量为裁剪指标比如需要将参数量/计算量裁剪掉多少但是我们对裁剪的终极目标之一是在推理部署时降低延迟也就是快且准中的“快”。而单纯降低模型参数量/计算量并不代表一定能带来模型性能提升需要考虑裁剪后模型计算强度与平台计算强度的关系参考roofline model理论。 图1 Roofline model示意图 图1为roofline model示意图roofline model展示了模型在计算平台的限制下能达到多快的计算速度使用计算强度进行定量分析。当模型计算强度小于平台计算强度红色区域模型处于内存受限状态模型性能计算平台理论性能性能提升计算量减少当模型计算强度大于平台计算强度绿色区域模型处于计算受限状态模型性能约等于计算平台理论性能性能提升接近计算量减少。 同时我们研究发现某些情况下单纯减少channel不一定会带来模型性能提升甚至可能会降低模型性能另外裁剪后模型的推理性能因目标运行设备不同存在差异。也就是说单纯裁剪channel不一定会带来性能提升甚至有可能会适得其反裁剪后模型的实际性能与部署的目标设备相关平台计算特性和模型结构特点紧密相关。  基于以上研究我们对裁剪模型的搜索空间做了重点优化提出了基于性能感知的模型裁剪优化方法。在对裁剪模型结构进行搜索时除了考虑裁剪后模型的规模如计算量/参数量FLOPS/Params同时考虑不同模型结构channel/shape/layers基于设备平台的真实性能表现也就是裁剪模型在推理部署平台上的的推理延迟时间(latency)。具体做法如下 1由于单纯的计算量/参数量并不能反映模型在计算平台上的真实性能我们首先将不同的模型结构在计算平台进行性能测试决定模型的哪些层的channel需要多裁哪些层的channel需要少裁裁掉哪些层对实际性能提升效果最好。我们对resnet50的模型结构特点进行了研究。图2为resnet50模型[5]结构图该模型结构分为5个conv模块,conv1是一个7x7卷积conv2-conv5都是由bottleneck组成分别包含3/4/6/3个bottleneck。 图2 resnet50模型结构 以bottleneck为基本测试单位模型推理测试平台选择tensorrt对于每一个bottleneck改变他们的输入输出channel个数测试其在tensorrt上的推理性能表现得到了每一个bottleneck在不同的输入输出channel下的实际性能表现。图3展示了实验中resnet50第三个stage的第6个bottleneck在不同的输出channel个数下在tensorrt上测试的推理性能。 图3 resnet50conv3_bottleneck6基于tensorrt的推理延迟 由图3结果可以看出该模型结构下测得的推理延迟时间并不会随着channel个数的增加而线性增长推理时间与channel个数呈现出阶梯状关系如当32channel个数≤64时推理性能持平。该实验结果带来的启发是在对模型进行裁剪时我们选择保留阶梯线右侧边缘的channel个数这样既能保证推理性能又能尽可能保证模型本身的channel个数。 2在对裁剪模型进行自动化搜索时除了基于计算量/参数量参考指标提出了以延迟为优化目标的自动化模型裁剪方法。将基于性能感知的约束条件添加到裁剪模型搜索空间在对裁剪模型进行搜索时可同时满足对计算量/参数量/延迟的多重要求尽可能保证裁剪后的模型在推理部署阶段最大限度地降低延迟。在裁剪模型搜索阶段我们的优化代码第一阶段首先会指定裁剪模型的计算量/参数量通过计算量/参数量的设定去搜索符合条件的裁剪模型。在裁剪模型的搜索空间中每一层channel个数的设定会参考1中的测试结果。第二阶段在搜索出的候选裁剪模型中计算每个候选裁剪模型在目标推理平台上的推理耗时筛选出推理耗时最小的模型为我们的目标裁剪模型从而保证裁剪模型是在计算量/参数量/延迟三个层面搜索出的最优结果。 第三步裁剪后模型精度恢复。对于模型裁剪大家最关注的问题是裁剪后的模型是否能恢复到与裁剪前相近的精度也就是快且准中的“准”。一般的模型裁剪方法是将模型裁剪之后进行finetune或者一边裁剪一边训练而通过我们的实验发现通过裁剪算法得到的压缩模型直接随机初始化训练Training from scratch得到的模型精度反而比基于原模型权重finetune效果更好Training from scratch可以更多去探索稀疏化模型的表达空间所以我们对于裁剪后的模型采用Training from scratch的训练方式。同时为了尽可能恢复裁剪后模型的精度我们结合蒸馏训练用大模型去指导裁剪后的小模型训练在精度保持上取得了非常好的效果。 表1是我们裁剪并训练出的一些模型将Resnet50计算量裁剪到原来的50%、37.5%时仍然可以保持76%以上的TOP1精度 表1 模型规模与对应精度 模型 Top-1 FLOPS 参数量 Raw-resnet50 76.4% 4G 255万 Pruned-model1 76.3% 2G 167万 Pruned-model2 76.1% 1.5G 165万 基于浪潮NF5488A5平台未经过压缩优化的Resnet50推理性能如表2 表2 压缩前的Resnet50基于NF5488A5的性能 模型 平台 性能 Top1精度 ResNet50 浪潮NF5488A5(1*A100) 37694.5 images/s 76.1% ResNet50 浪潮NF5488A5(8*A100) 303264 images/s 76.1% 而经过压缩优化后Resnet50在开放赛道的性能如表3 表3 压缩后的Resnet50基于NF5488A5的性能 模型 平台 性能 Top1精度 ResNet50 浪潮NF5488A5(1*A100) 68994 images/s 75.856% ResNet50 浪潮NF5488A5(8*A100) 549782 images/s 75.856% 综上在MLPerf推理V0.7竞赛开放赛道中基于压缩优化算法我们将ResNet50计算量压缩到原来的37.5%压缩优化后的ResNet50模型单GPU推理速度相比压缩优化前提升83%8GPU推理速度相比压缩优化前提升81%。基于浪潮NF5488A5服务器单卡每秒可处理68994张图片8卡每秒可以处理549782张图片这个成绩在当时参赛结果中排名第一。 参考文献 [1] Denil, M. , et al. Predicting Parameters in Deep Learning. University of British Columbia (2013). [2] He, Y. ,  X. Zhang , and  J. Sun . Channel Pruning for Accelerating Very Deep Neural Networks. (2017). [3] He, Y. , et al. AMC: AutoML for Model Compression and Acceleration on Mobile Devices. (2018). [4] Liu, Z. , et al. MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning. (2019). [5] He, Kaiming, et al. Deep residual learning for image recognition. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/85821.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

北京微网站建设公司哪家好新网站2个月没有收录

自定义指令 自定义指令就是自己定义的指令,是对 DOM 元素进行底层操作封装 ,程序化地控制 DOM,拓展额外的功能 全局定义 Vue.directive(指令名字, definition) 指令名:不包括v-前缀,使用时候包括v-,v-指令名defini…

建设品牌公司网站页面模板配置

目录 前言: 场景: 原因: 解决: 方案2具体细节: 纯C服务端处理如下: Qt客户端处理如下: 前言: tcp协议里面,除了心跳检测是关于长连接操作的处理,这个在…

制做网站首先应该怎么做工商注册地址有什么要求

使用 UNIX 权限保护文件通过 UNIX 文件权限和 ACL 可保证文件安全。带 sticky 位的文件和可执行文件要求特殊的安全措施。用于查看和保证文件安全的命令下表介绍了用于监视以及保证文件和目录安全的命令。表 7-1 保证文件和目录安全的命令命令说明手册页ls列出目录中的文件及其…

做视频链接哪个网站没有广告南昌做网站公司

随着国家信息化建设的不断深入,信息技术创新(信创)已成为推动我国经济发展的重要动力。在这样一个大环境下,信创运维作为保障信创环境稳定、高效运行的关键环节,其重要性日益凸显。本文将探讨信创运维的发展背景、数字…

陕西 网站建设wordpress给代码高亮

单选题 1、电子邮件地址中一定会出现的字符() A、- B、 C、! D、# 答案:B 2、以下常见的电脑硬件中,()不是一种输入设备 A、鼠标 B、键盘 C、触摸板 D、显示器 答案:D 3、…

嘉兴网站关键词沈阳网页设计兼职

Overview — OpenOFDM 1.0 documentation 本篇文章为学习OpenOFDM之后的产出PPT,仅供学习参考。

做的网站如何放在电脑上常见网站颜色搭配

1.全局变量[其不属于面向对象的思想,因为其放在对象之外的],面向对象有一个特点,其实封装的,php希望其所有的成员都应该放在类中;php的面向对象是基于面向对象的,不是纯粹面向对象的;也就是其可…

网站开发培训要多少钱自动的微信小程序开发

1. 系统设计 本次智能饮水机控制系统的设计研究一款以STC89C52单片机为核心的智能饮水机控制系统,其主要功能设计如下: 1.该饮水机利用DS18B20数字温度传感器实时采集饮水机内水的温度,其检测温度范围为0-100℃,精度0.1℃&#…

鼎湖网站建设广州电商小程序开发

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、力扣121. 买卖股票的最佳时机二、力扣122.买卖股票的最佳时机II 前言 一、力扣121. 买卖股票的最佳时机 class Solution {public int maxProfit(int[] pr…

网站建设玖金手指排名14100个创意创业项目

开发/测试模型 瀑布模型 设计:技术文档(设计那些接口,库表,mq,定时任务),UI视觉稿 特点:线性的结构。 优点:每个阶段做什么,产出什么非常清晰 缺点:测试人员介入太晚…

中堂东莞网站建设合肥大型网站设计

一、什么是Ajax AJAX(Asynchronous Javascript And XML)翻译成中文就是“异步Javascript和XML”。即使用Javascript语言与服务器进行异步交互,传输的数据为XML(当然,传输的数据不只是XML,现在更多使用json数据&#xf…

怎样做自己网站免费服务器ip

文章目录 环境软件版本服务器系统初始化设置关于etcd签名证书etcd集群部署负载均衡器组件安装设置关于k8s自签证书自签CAkube-apiserver 自签证书kube-controller-manager自签证书kube-scheduler自签证书kube-proxy 自签证书admin 自签证书 控制平面节点组件部署**部署kube-api…

网页设计项目报告总结做搜狗网站优化

0x0 最近在clone yaffs2仓库时发现clone的异常缓慢,就算开了代理也是,搜索一番发现网上大多都是将设置http、https、ssh协议的代理,对于git协定的代理讲的很少,下面分享下如何让git协议走socks代理 以下内容前提是里已经在电脑上…

外贸公司网站建设哪家好福州建设发展集团有限公司网站

Infortrend 使企业能够实现高效和可靠的数据备份,确保业务不间断的运行,保护有价值的业务信息。用户可以依靠我们的存储解决方案实现恢复时间目标(RTO)和恢复点目标(RPO),用于广泛的备份应用场景…

交互式网站是什么意思深圳市住房和建设局办事大厅

目录 文章导航一、字段解释1、电站基础信息表2、电站事实表 二、需求三、操作步骤1、将新增一列日期12、以左关联的形式增加装机容量3、年度发电总量4、年度售电完成率4、发电量及发电效率5、年售电完成比、售电回款比、管理费用比、运维费用比5、总装机容量6、最近日期7、最近…

可以做富集分析的网站国内最大设计网站

转自 http://blog.sina.com.cn/s/blog_4fd2a65a0101gg2o.html 在做安卓应用是我们经常要判断用户对返回键的操作,一般为了防止误操作都是在用户连续按下两次返回键的时候提示用户是否退出应用程序。 第一种实现的基本原理就是,当按下BACK键时&#xff0c…

网站开发程序制作域名备案公众号外链网站怎么做

点击上方“占小狼的博客”,选择“设为星标“本文阅读时间大约4分钟。来源:https://dwz.cn/dLRLBZabJava虚拟机层面所暴露给我们的状态,与操作系统底层的线程状态是两个不同层面的事。具体而言,这里说的 Java 线程状态均来自于 Thr…

绍兴网站网站建设做网站买服务器

一 、伪类(不存在的类,特殊的类) -伪类用来描述一个元素的特殊状态 比如:第一个元素,被点击的元素,鼠标移入的元素 -特点:一般请情况下,使用:开头 1、 :first-child …

株洲建设网站制作深圳市住房和建设局官网站首页

Mysql之聚合函数 什么是聚合函数常见的聚合函数GROUP BYWITH ROLLUPHAVINGHAVING与WHERE的对比 总结SQL底层原理 什么是聚合函数 对一组数据进行汇总的函数,但是还是返回一个结果 聚合函数也叫聚集,分组函数 常见的聚合函数 1.AVG(): 求平均值 2.SUM() :…

重庆电力建设公司网站网站建设推广文案

工服穿戴检测联动门禁开关算法通过yolov8深度学习框架模型,工服穿戴检测联动门禁开关算法能够准确识别和检测作业人员是否按照规定进行工服着装,只有当人员合规着装时,算法会发送开关量信号给门禁设备,使门禁自动打开。YOLO的结构…