CANN易用性案例汇总

CANN易用性案例汇总

前言

易用性是软件生态的关键一环,CANN生态团队在2025年也从算子到模型至下而上的对易用性进行改进。在算子开发层面,围绕着算子编程效率、算子编译部署效率、代码可读性从开发、编译到维护全方面地降低算子的上手难度;在模型部署层面,主要围绕着大模型两大加速利器——图模式和通信进行改进,让开发者更轻松地优化大模型的性能。这里整理了十一篇案例帮助大家了解CANN最新易用性相关的功能特性。

/易用性案例汇总
|–/算子开发
| |–/编程效率
| | |–① 算子Kernel直调极简编程实践
| | |–② AICPU Tiling下沉编程方式介绍
| | |–③ Ascend C RTC即时编译
| | |–④ TilingKey模板化编程实战
| |–/编译部署效率
| | |–① 算子Kernel直调极简编程实践
| | |–② AICPU Tiling下沉编程方式介绍
| | |–③ Ascend C RTC即时编译
| |–/代码可读性
| | |–① 算子Kernel直调极简编程实践
| | |–④ TilingKey模板化编程实战
|–/模型部署
| |–/图模式
| | |–/使能图模式编程效率
| | | |–⑤ npugraph_ex: CANN aclGraph的图模式样板间
| | |–/图自定义优化编程效率
| | | |–⑤ npugraph_ex: CANN aclGraph的图模式样板间
| | | |–⑥ 三步上手: TorchAir自定义FX Pass实战指南
| |–/通信
| | |–/编程效率
| | | |–⑦ 基于torch_npu的IPC特性介绍
| | | |–⑧ CANN开源赋能协同创新: SGLang+Mooncake+CANN HIXL的PD分离D2D部署实践
| | | |–⑨ 基于HIXL+Mooncake+VLLM的KV Cache池化与高性能传输联创手段
| | | |–⑩ 昇腾CANN HIXL助力破解RL推理长尾推理
| | |–/维测效率
| | | |–⑪ 昇腾+DeepXTrace: 推理集群快慢卡在线检测实践之MoE篇
tips:同一篇文章可能涉及多种易用性改进,因此会在上图中多次出现

案例介绍

1. 自定义算子开发系列:算子Kernel直调极简编程实践

**简介:**Kernel直调方式具备代码轻量化、开发直观便捷的优势,本文介绍了Ascend C异构混合编程和AscendOps模板化编程两种编程方式,在Kernel直调方式基础上进一步降低了算子开发实现和编译部署的难度。
文章链接:https://mp.weixin.qq.com/s/gxDwV-Q_xA8DkuJdbKvFzA

2. 自定义算子开发系列:AICPU Tiling下沉编程方式介绍

**简介:**Host Bound一直是算子调用的显著性能瓶颈,造成Host Bound的核心原因在于算子Kernel执行前需要计算出TilingData,而TilingData的计算通常是在Host侧再拷贝到Device侧。本文介绍了AICPU Tiling下沉的编程方式,使用Device侧的AICPU计算TilingData,节省了Host侧拷贝TilingData到Device侧的时间。同时支持混合编程降低了算子开发实现和编译部署的难度。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156094628?spm=1001.2014.3001.5502

3. 自定义算子开发系列:Ascend C RTC即时编译

**简介:**本文介绍了一种新的Ascend C算子编译方式——RTC即时编译。区别于静态编译提前将算子编译成二进制文件保存到存储设备的方式,RTC即时编译的算子编译发生在算子调用程序执行阶段。此时算子编译出的二进制数据保存在内存,减少了和磁盘的IO,加速了算子编译加载的速度;并且由于在调用阶段可以获取确定的算子shape、输入类型,编译出算子的执行性能也得到提升。在易用性的层面算子可以动态调整编译参数,简化了编译流程,同时不再需要构建算子工程,算子开发效率也得到提升。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156327647?spm=1011.2415.3001.5331

4. 自定义算子开发系列:TillingKey模板化编程实战

**简介:**本文介绍了Ascend C算子开发中多场景算子新的开发实现方式——TilingKey模板化编程。同一个算子存在多种不同实现的情形,需要通过TilingKey区分算子的不同实现,本文针对TilingKey引入了模板实现的概念,进一步方便了TilingKey的维护和管理,大大提升了代码可读性和编程效率。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155784629?spm=1001.2014.3001.5502

5. npugraph_ex:CANN aclGraph的图模式样板间

**简介:**本文介绍了基于torch.compile提供的昇腾高性能图后端npugraph_ex,它在基于aclGraph图捕获和重放的能力上进一步融合了亲和NPU的图优化能力,以满足大模型推理场景下的性能加速需求。npugraph_ex可以通过torch.compile接口直接使能,接入便捷,并且除了自身的图优化能力外还支持自定义图优化规则,方便开发者更好地优化模型。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156203006?spm=1001.2014.3001.5502

6. 三步上手:TorchAir自定义FX Pass实战指南

**简介:**本文介绍了在昇腾NPU上利用PyTorch图模式进行大模型推理时,通过自定义FX Pass实现多流并行优化的的原理和步骤。此种方式降低了自定义图优化的难度和门槛,当模型脚本中同一种场景的优化多次出现时不再需要多处修改脚本,只需要定义一个FX Pass就可以使能全部优化。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156022371

7. 基于torch_npu的IPC特性介绍

**简介:**本文介绍了基于昇腾torch_npu的IPC特性原理和使用方法,IPC允许不同进程之间直接访问共享的设备内存,无需显式的进行内存拷贝,既减少了操作步骤也提升了通信效率。此特性也在强化学习的实际场景中经过验证,推理进程通过共享内存直接获取训练进程的权重数据,大幅降低了推理进程的内存消耗。

文章链接:https://blog.csdn.net/m0_71340392/article/details/156044864?spm=1001.2014.3001.5502

8. CANN开源赋能协同创新:SGLang+Mooncake+CANN HIXL的PD分离D2D部署实践

**简介:**本文介绍了基于昇腾设备大模型PD分离部署D2D特性的实现原理——通过SGLang实现PD分离架构落地,Mooncake提供传输适配层,CANN的开源组件HIXL突破通信瓶颈,三者协同完成整套方案。HIXL提供的精简接口加速了方案的适配进度,同时接口也屏蔽了底层昇腾不同型号的硬件差异,降低了多种型号设备的适配成本。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155013097

9. 基于HIXL+Mooncake+VLLM的KV Cache池化与高性能传输联创手段

**简介:**本文介绍了基于CANN开源组件HIXL,结合Mooncake和vLLM框架的大模型推理KV Cache池化方案。针对单设备KV Cache存储受限的问题,该方案通过整合多存储介质构建KV Cache存储池,让请求前缀跨节点共享以提升命中率。HIXL提供的精简接口加速了方案的适配进度,同时接口也屏蔽了底层昇腾不同型号的硬件差异,降低了多种型号设备的适配成本。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155537017

10.昇腾CANN HIXL助力破解RL推理长尾难题

**简介:**本文介绍了利用HIXL组件快速构建PD分离方案,解决了RL推理长尾输入运行效率低的问题。HIXL提供的精简接口加速了方案的适配进度,同时接口也屏蔽了底层昇腾不同型号的硬件差异,降低了多种型号设备的适配成本。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156328048

11.昇腾+DeepXTrace:推理集群快慢卡在线检测实践之MOE篇

**简介:**本文介绍了一套为MC2 Dispatch和Combine算子设计的轻量级异常诊断方案,通过开源工具DeepXTrace和昇腾底层MoeDistributeDispatch与MoeDistributeCombine算子的改造结合,实现了诊断Dispatch与Combine操作通信缓慢原因的方案,提升了定位效率。
文章链接:https://mp.weixin.qq.com/s/AaZ3pgM-brWw8-DMxS54Wg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1136077.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手把手教你掌握时序逻辑电路基本原理

从零开始搞懂时序逻辑:触发器、状态机与真实工程实践你有没有遇到过这样的情况?写好的Verilog代码烧进FPGA,结果信号乱跳,状态机莫名其妙卡死,或者高频下系统直接罢工。调试几天后发现——问题出在时序上。没错&#x…

在线仿真工具验证数字电路时序的一文说清

用在线仿真工具搞定数字电路时序问题:从入门到实战 你有没有遇到过这种情况——明明逻辑设计没问题,FPGA烧录后系统却时不时“抽风”,数据错乱、状态跳变异常,示波器抓半天也复现不了? 或者作为学生,在学…

电商巨头下场造车:阿里与山子高科的“V17”实验!

近期,随着英伟达在CES 2026发布了开源推理模型Alpamayo并开放自动驾驶仿真工具链,汽车行业迎来了新的技术拐点。就在此背景下,阿里巴巴与曾被戏称为“造车奇兵”的山子高科(SZ.000981)的合作传闻再度升温。作为记者&am…

stm32Hal库移植freemodbus,modbusRTU功能实现

基本借鉴来自: https://blog.csdn.net/qq_33954661/article/details/151179820 鉴于网上很多文章都写得不清不楚或者就是动不动就收费,这很恶心,就这么点移植步骤还要神神秘秘的,有辱斯文,有的阅读让读者很不舒服&am…

玩转线材端子机PLC一拖二方案

线材端子机程序,主机加从机一拖二,不用通信指令,共用公共区寄存器,威纶屏加松下fpxh60ct plc,最多可以控制12轴搞工控的老铁们应该都懂,遇到多轴控制项目最怕通信延迟和程序复杂度。最近刚整完一个线材端子…

Halcon联合C#贴片机程序:四轴运动控制,使用雷赛驱动卡,程序带注释,直接使用减少开发周期

Halcon联合C#贴片机程序,带运动控制部分,四轴运动使用 国内性价比很高的雷赛驱动卡,非常方便,程序带注释,懂一点C#和Halcon的改一下可以直接使用,减少开发周期。 自带软件加密源程序。在工业自动化开发中&a…

电子电路中的负反馈机制:全面讲解与应用

负反馈:让电路“自我纠正”的智慧你有没有想过,为什么你的耳机能清晰还原音乐中的每一个音符?为什么工业传感器能在嘈杂的工厂里准确读出微弱的温度变化?这些看似理所当然的背后,藏着一个模拟电路中最古老却最强大的设…

基于SpringBoot的流浪动物救助系统(源码+lw+部署文档+讲解等)

课题介绍 本课题聚焦流浪动物救助规范化与社会化协同需求,设计并实现一套基于Spring Boot框架的流浪动物救助系统,旨在破解传统流浪动物救助中信息分散、救助资源调配低效、救助流程不透明、领养与救助衔接不畅等痛点问题,精准匹配救助人员便…

LeetCode热题--1143. 最长公共子序列--中等

题目 给定两个字符串 text1 和 text2,返回这两个字符串的最长 公共子序列 的长度。如果不存在 公共子序列 ,返回 0 。 一个字符串的 子序列 是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符(…

西门子博图PID仿真对象库,可以模拟现场温度,阀门等实物对象,训练PID调节,省去买设备

西门子博图PID仿真对象库,可以模拟现场温度,阀门等实物对象,训练PID调节,省去买设备,选1500硬件组态支持模拟器运行,就是在没有任何硬件的情况下非常接近现场设备属性,调PID,支持自动…

比亚迪逆风突围:2025年销量飙升62%,海狮7热销单月冲破3千!

最新数据显示,2025年中国新能源汽车巨头比亚迪在日本市场实现了令人瞩目的逆袭,全年销量增长62%,达到3870辆。这一成绩不仅打破了日本电动汽车市场的增长僵局,也凸显了比亚迪在全球市场布局中的战略韧性。一、 市场环境&#xff1…

基于DELM深度极限学习机的回归预测MATLAB代码教程——代码清晰、注释详尽、可读取EXCE...

基于DELM深度极限学习机的回归预测MATLAB代码 代码注释清楚。 main为主程序,可以读取EXCEL数据,使用换自己数据集。 很方便,初学者容易上手。最近在折腾回归预测模型,发现DELM(深度极限学习机)用起来还挺…

三菱Q系列PLC ,QD77MS16走总线控制伺服项目,实际应用的 程序结构清晰明了,通俗易懂...

三菱Q系列PLC ,QD77MS16走总线控制伺服项目,实际应用的 程序结构清晰明了,通俗易懂,8个伺服,PLC程序有完整的注释,有伺服设定参数,三菱触摸屏程序,电气BOM ,电气I/O表,完…

AD画PCB通俗解释:什么是PCB封装?

从“画几个焊盘”到量产可靠:深入理解AD中PCB封装的真正意义你有没有遇到过这样的情况——原理图画得一丝不苟,网络连接清清楚楚,结果一导入PCB,元件飞得到处都是?或者更糟:板子打回来后发现某个芯片根本焊…

2026开战:AI眼镜“百镜大战”打响,国内厂商领衔掀起“神仙打架”!

2026年1月7日,全球最大的消费电子展CES在美国拉斯维加斯盛大开幕。本届展会中国AI眼镜赛道可谓是“神仙打架”,头部大厂齐聚,抢眼的硬件层出不穷,27家中国AI眼镜、VR、AR厂商联手组团,点燃了现场观众的热情。作为记者&…

手把手玩转昆仑通泰触摸屏与V20变频器USS通讯

昆仑通泰触摸屏与v20变频器uss通讯,控制变频器 1,通过触摸屏与变频器uss通讯 2,通过触摸屏读取变频器电压,电流,频率 3,通过触摸屏设定变频器正反转,设定频率,加速,减速时…

x64dbg调试多线程程序注意事项

用x64dbg调试多线程程序?别让线程“乱跑”毁了你的分析你有没有遇到过这种情况:在x64dbg里设了个断点,结果一运行,程序频繁中断——不是你想调试的那个线程触发的,而是某个后台心跳线程、日志刷新线程或者GUI重绘线程不…

【Linux】PVE系统创建规范的VM模版

基于 Ubuntu Cloud Image 在 Proxmox VE 上创建一个 可用于制作模板的虚拟机。 注意!如果未将 local-lvm 和 local 分区合并, --scsi0 参数的值应该是 local-lvm Proxmox VE Linux 模板创建规范(Ubuntu 22.04 Cloud Image 示例) 1…

H5U的一个比较完整的程序框架. PLC还是性价比挺高,特别是对于伺服的总线。 主打的伺服控制...

H5U的一个比较完整的程序框架. PLC还是性价比挺高,特别是对于伺服的总线。 主打的伺服控制是ETHERCAT总线 程序写的条理分明,清晰易懂,注释清楚,对于初次使用汇川的总线控制有很好的参考价值,。 气缸的控制宝库伸出、…

基于SpringBoot的旅游出行指南系统(源码+lw+部署文档+讲解等)

课题介绍本课题聚焦旅游出行场景下精准指南服务与信息整合需求,设计并实现一套基于Spring Boot框架的旅游出行指南系统,旨在破解传统旅游出行中攻略信息分散、目的地信息不对称、行程规划低效、特色资源难挖掘等痛点问题,精准匹配游客便捷获取…