专用硬件神经网络优化技术解析

news/2025/10/18 19:24:50/文章来源:https://www.cnblogs.com/codeshare1135/p/19150068

专用硬件神经网络优化技术

随着神经网络规模不断扩大,在设备上部署神经网络越来越需要能够并行化通用操作的专用硬件。但为了达到最高效率,仅优化硬件适应网络是不够的,网络也应该为硬件进行优化。

神经网络架构搜索的挑战

标准的神经网络优化方法是通过神经网络架构搜索(NAS),目标是同时最小化网络规模和浮点运算次数(FLOPS)。但这种方法在神经芯片上效果不佳,因为神经芯片通常能够更快速地执行易于并行化但FLOPS较高的任务,而不是难以并行化但FLOPS较低的任务。

最小化延迟是比最小化FLOPS更复杂的优化目标。为此,某中心设备硬件团队开发了多种策略,将NAS适配到为某中心新神经引擎加速器系列优化网络架构的问题上。这些策略涉及策划架构搜索空间,例如减少陷入局部最优的可能性。

神经网络架构搜索算法类别

NAS需要三个要素:搜索空间定义、成本模型和优化算法。我们使用性能估计器来测量延迟和内存占用,但为了测量准确性,必须训练网络。这是一个主要瓶颈,因为训练单个网络可能需要数天时间。

NAS算法分为三类,需要不同次数的网络训练:

  • 多轮方法:每轮采样一组架构,每个网络都经过训练并评估准确性和性能
  • 单轮方法:从称为超网的大型网络开始,具有多个可能的子图
  • 零轮方法:像多轮方法一样工作,但网络从不训练

搜索空间策划

NAS成本函数可以可视化为一个景观,每个点代表一个潜在架构。基于FLOPS的成本函数随大小或通道等因素单调变化。然而,包含加速器感知约束会通过引入更多渐近线来破坏函数。

为了解决这个问题,我们减少了搜索空间中的选项数量。我们探索卷积架构,意味着输入被分解为几个不同的组件,每个组件都有自己的网络通道。我们限制了通道大小的选项,仅考虑对神经引擎并行性因子有利的特定值。

专家参与的NAS产品化

策划搜索空间提高了收敛速度、稳定性和可靠性,但向新用例的转移并不简单。在这些情况下,我们发现结合NAS结果和人类专业知识是最快的方法。

当我们对不同数据集执行NAS时,看到了常见模式,例如将卷积层与先前的卷积层融合,减少通道数量,并使它们与硬件并行性因子对齐。特别是,融合倒置瓶颈块中的卷积层对提高效率贡献最大。

结果和产品影响

我们将此技术应用于某中心设备组合中的多个产品:

1. 在Echo Show上减少检测延迟一半

Echo Show运行模型来检测人员存在并在房间中定位检测到的人。原始模型使用IBN块。我们使用加速器感知NAS将此模型的延迟减少了53%。

Blink相机使用分类模型进行安全辅助。我们的目标是将模型参数和峰值激活内存适应严格的内存预算。在这种情况下,我们结合NAS技术和专家参与进行微调。

3. 机器人快速语义分割

在机器人领域,语义分割用于理解机器人正在交互的对象和场景。对于此模型,我们的目标是将延迟减少一半。我们的起点是优化在CPU上运行的语义分割模型。

4. 通过设备上推理保护用户隐私

某中心神经引擎支持设备上的大模型推理,因此我们可以处理麦克风和视频馈送,而无需将数据发送到云端。设备上处理还提供了更好的用户体验,因为推理管道不受间歇性连接问题的影响。

使边缘AI可持续

我们提到,具有完整训练的多轮NAS可能需要多达2,000个GPU天。然而,通过本文描述的一些技术,我们能够在 substantially 更短的时间内创建高效架构,使NAS更具可扩展性和可持续性。

由于其并行性和混合精度特性,神经引擎比通用CPU更节能。对于百万普通用户,差异约为每年数百万千瓦时,相当于200辆汽油动力乘用车每年或100个美国家庭的平均能源消耗。

未来工作

我们已经确定策划需要深入了解硬件设计的专家。这可能无法扩展到未来更复杂硬件的世代。我们还确定在时间紧张的情况下,让专家参与循环仍然比从头运行NAS更快。因此,我们继续研究具有加速器感知的NAS算法如何处理大搜索空间。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/939733.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习逆向的背景知识(自用)

学习逆向的背景知识(自用) 常见的寄存器指令指针(程序计数器) IP EIP RIP 寄存下一个指令的地址通用寄存器:累加器寄存器 EAX RAX 寄存算术运算结果基址寄存器 EBX RBX 寄存引用偏移量的基址…

Linux-网络安全私房菜(二)

Linux-网络安全私房菜(二)目录防火墙防火墙简单操作iptablestips建议系统资源篇章理解数据流输出重定向stress压力测试命令free命令netstat命令ss命令软件包篇章rpm包管理dpkg包管理磁盘篇章MBRfdiskGPT(GUID)gdiskpar…

pycharm使用远程的ssh的解释器

今天使用了远程ssh的解释器1.使用 专业版本的pycharm 2. 3. 解释器使用 .conda/envs/.../lth/python.exe 4. 5. 如果你有一些数据集也在这附近,需要把数据集 exclude掉 总的来说, 这么做就够了。 可惜我老师只有…

Android SSL Pinning检测利器:SSLPinDetect技术解析

本文详细介绍了SSLPinDetect工具的技术原理和实现,这是一个用于Android应用安全分析的SSL Pinning检测工具,通过多线程扫描、内存映射读取和预编译正则表达式等技术,实现高效的静态代码分析。SSLPinDetect:Android…

AI元人文:社区调解的数字剧场

AI元人文:社区调解的数字剧场 在AI元人文的视野下,社区调解经历了一场深刻的范式转变——从对错的裁判转变为多方价值诉求在特定情境舞台上的创造性对话。这不仅是方法的升级,更是对调解本质的重新定义。 一、从对抗…

2025年粉末冶金制品/零件厂家推荐排行榜,专业制造与高品质服务的首选!

2025年粉末冶金制品/零件厂家推荐排行榜,专业制造与高品质服务的首选!随着工业技术的不断进步和市场需求的多样化,粉末冶金制品及零件在各个领域的应用越来越广泛。为了帮助采购决策者筛选出优质的粉末冶金制品及零…

详细介绍:【探寻C++之旅】第十六章:unordered系列的认识与模拟实现

详细介绍:【探寻C++之旅】第十六章:unordered系列的认识与模拟实现pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &qu…

Dubbo入门-Dubbo的快速使用

什么是Dubbo Dubbo是一个分布式、高性能、透明化的RPC服务框架。 提供服务自动注册、自动发现等高效的服务治理方案,可以和Spring框架无缝集成。 Dubbo中服务端最核心的对象:ApplicationConfig:配置当前应用信息 Pr…

15 接口的介绍

15 接口的介绍接口 专业的抽象 定义 只有规范,自己无法写方法 规范的含义是,定义规则,即‘若,则’这类规范。 如:如果你是老师,则你要具备教学生的能力。 使用 public interface Name1{//接口中的所有定义都是抽…

傅里叶变换及DCT点滴

上图来自 PDF Fourier Transforms and the Fast Fourier Transform (FFT) Algorithm, Paul Heckbert. 如果a_n都相等的话,A_k是等比数列求和. 为啥傅里叶变换在解密中也有用?因为解密涉及大整数的分解,which涉及一…

【未完待续】MkDocs 部署安装教程

MkDocs 简介MkDocs 是一个基于 Python 的 Markdown 的静态网站生成工具,常用于快速搭建项目文档网站。 它界面简洁大方,配置简单,生成速度快,特别适合技术手册、内部知识库等场景,并可部署到 Github Pages,因此深…

傅里叶变换点滴

上图来自 PDF Fourier Transforms and the Fast Fourier Transform (FFT) Algorithm, Paul Heckbert. 如果a_n都相等的话,A_k是等比数列求和. 为啥傅里叶变换在解密中也有用?因为解密涉及大整数的分解,which涉及一…

[PaperReading] SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

目录SAIL-Embedding Technical Report: Omni-modal Embedding Foundation ModelTL;DRDataRecommendation-aware Data ConstructionDynamic Hard Negative MiningQ:动态难负样本挖掘是什么原理?\(\lambda^*\)是如何动…

How to Practice English Daily for 30 mins

How to Practice English Daily for 30 minsWelcome to Bookish English 2. Tell me honestly, how many times have you said, "Ill start learning English tomorrow." But tomorrow never comes, right?…

Flash 8.0下载安装

Flash 8.0下载安装https://www.yutu.cn/softhtml/softsetup_136.html

英伟达个人AI超算Spark技术解析

英伟达DGX Spark个人AI超级计算机将于10月15日上市,搭载GB10 Grace Blackwell超级芯片,具备每秒千万亿次计算能力,支持高达2000亿参数AI模型,为研究人员提供桌面级AI训练解决方案。英伟达“个人AI超级计算机”将于…

[buuctf]jarvisoj_level3_x64

首先查看一下文件的保护措施在用ida打开看一下这里很明显在read函数进行输入的时候存在栈溢出,然后观察一下文件,没有后门函数,也没有可以用的binsh,那就可以向libc泄露这方面去想了 由于这里是64位的程序,所以在调…

SpringBoot系列十三:SpringBoot面试常见问题

你觉得 SpringBoot 最大的优势是什么呢? 答:SpringBoot 的最大的优势是“约定优于配置“。“约定优于配置“是一种软件设计范式,开发人员按照约定的方式来进行编程,可以减少软件开发人员需做决定的数量,获得简单的…

人生四大支柱 - 健康,金钱,工作,关系

人生四大支柱 如果把人生看作是一座大厦,想要这座大厦扛过人生一路的风风雨雨,让他能安稳长久,必须有坚实的支柱支撑大厦。 细数下来,最主要的有四根柱子:健康、金钱、工作、关系。它们相互依存,缺了哪一根,生活…