一文说清AXI DMA与普通DMA性能差异

AXI DMA为何碾压普通DMA？一文讲透高性能数据搬运的底层逻辑

你有没有遇到过这样的场景：ADC采样速率明明高达100Msps，结果系统只能稳定读出30MB/s的数据；或者视频处理时CPU占用飙升到80%，却只是在做内存拷贝？问题很可能不在算法，而在于——你的DMA跑得太慢了。

在嵌入式开发中，“用DMA减轻CPU负担”几乎是常识。但很多人不知道的是，同样是DMA，性能差距可以相差十倍以上。特别是在Zynq、Intel Cyclone V SoC这类异构平台上，传统MCU那一套DMA思路根本扛不住高速数据流。

真正能打通“数据任督二脉”的，是AXI DMA—— 它不是简单的外设搬运工，而是构建高性能数据通路的核心引擎。今天我们就来彻底拆解：为什么AXI DMA能在图像采集、软件无线电、实时控制等高带宽场景下实现碾压级表现？

从“搬砖小工”到“高速公路”：两种DMA的本质区别

我们先来看一个直观对比：

假设你要把1GB的数据从A地运到B地。

普通DMA就像一辆农用三轮车：每次只能拉几百KB，每趟都得回起点装货、报备、等指令；
AXI DMA则是一条双向八车道高速公路+自动化物流系统：一次发车就是几MB，全程无需人工干预，还能边收边发。

这背后的根本差异，并不在于“有没有DMA”，而在于它所依赖的总线架构和通信协议层级。

普通DMA：困在AHB上的搬运工

在STM32、LPC这类MCU中，DMA通常挂在AHB或APB总线上，工作模式非常典型：

[CPU] ←→ [DMA控制器] ←→ 外设寄存器 ↔ 数据缓冲区（SRAM）

它的流程很清晰：
1. 外设准备好数据（比如UART接收完一帧），发出DMA请求；
2. DMA接管总线，从外设寄存器读一个字节，写进内存；
3. 重复N次后触发中断，通知CPU处理。

听起来不错？但问题出在细节里。

瓶颈一：传输单位太小

多数普通DMA支持的最大猝发长度也就16次，每次可能就32位。这意味着每传64字节就要重新协商地址。频繁的地址建立开销直接吃掉有效带宽。

瓶颈二：必须经过“外设中转站”

所有数据必须先写入外设寄存器，哪怕这个寄存器只是一个FIFO深度为4的缓冲。这就像是快递包裹非要先送到小区门卫室，再由你去取——多了一层中间环节，延迟自然上去了。

瓶颈三：半双工 + 共享总线

同一通道不能同时收发，切换方向需要软件配置。更麻烦的是，DMA和CPU共用AHB总线，一旦开始大块传输，CPU访问内存就会被阻塞，导致系统卡顿。

这些限制加起来，决定了普通DMA的实际吞吐很难突破50MB/s，尤其在持续流量场景下极易丢包。

AXI DMA：直连DDR的“数据高铁”

再看AXI DMA的工作方式：

[FPGA逻辑] → AXI-Stream → [AXI DMA] ←AXI→ [DDR控制器] ←→ DDR3/4 ↑ [ARM CPU]

这里的关键变化是：AXI DMA是一个独立的AXI主设备，可以直接发起对DDR内存的读写请求，完全绕开CPU和外设寄存器。

它有两个独立通道：
-MM2S（Memory Map to Stream）：把内存里的数据变成流输出给PL逻辑（如驱动DAC）；
-S2MM（Stream to Memory Map）：把来自FPGA的高速数据流直接写入内存（如ADC采样）；

两个方向可以全双工并发运行，互不影响。

更重要的是，它跑的是AXI4总线——这是专为高性能SoC设计的协议，天生具备三大杀手锏：

特性	如何提升性能
✅ 突发传输（Burst）	一次请求可连续传输最多256个beat，极大降低协议开销
✅ 地址/数据分离通道	发出地址后立即传数据，无需等待响应，实现流水线
✅ 非阻塞机制	支持多主竞争与乱序完成，避免单个传输阻塞整个总线

举个例子：如果你要传一段64KB的图像数据，普通DMA可能要发上千次请求；而AXI DMA只要一次AWADDR + AWLEN=255就能搞定，后续数据自动按递增地址写入。

这种“启动一次，跑完全程”的能力，才是高吞吐的真正来源。

实战对比：同一个任务，两种命运

让我们用一个真实案例说明差距。

场景设定：AD9361射频采集系统

采样率：100Msps
每样本：16位IQ = 2字节
理论数据速率：200MB/s

目标是将原始IQ数据实时写入内存，供后续FFT或解调使用。

方案一：普通MCU + SPI + DMA

硬件连接：

AD9361 → SPI → STM32H7 → SRAM

实现方式：
- AD9361通过SPI以10MHz时钟发送数据；
- STM32配置SPI RX DMA，每收到1KB触发一次传输；
- CPU定时将缓存打包上传。

实际表现：
- SPI最大有效带宽约4~5MB/s（考虑命令/地址开销）；
- 即使改用并口，受限于GPIO翻转速度和DMA猝发长度，实测不超过30MB/s；
- CPU中断负载极高，稍有处理延迟即丢帧。

结论：根本无法满足200MB/s需求。

方案二：Zynq PL + AXI DMA

硬件连接：

AD9361 → LVDS → FPGA逻辑 → AXI-Stream → AXI DMA → DDR3

实现方式：
- 在FPGA中用Verilog实现AXI-Stream接口；
- AXI DMA S2MM通道绑定该流，设置目标内存地址；
- Linux用户空间通过mmap映射物理内存，直接读取采集数据。

关键优化点：
- 缓冲区起始地址按64字节对齐；
- 设置ARLEN=255，启用最大猝发；
- 使用环形缓冲+双描述符，实现无缝切换；
- 调用dma_map_single()确保Cache一致性。

实测结果：
- 可持续写入速率 > 180MB/s（>90%理论值）；
- CPU占用 < 5%，仅用于初始化和状态监控；
- 支持分钟级连续采集无丢包。

这才是真正的“零拷贝、低延迟、高可靠”。

性能差异背后的四大技术支柱

为什么AXI DMA能做到这一点？我们可以归结为四个核心技术优势：

1. 真正的“内存直达”路径

普通DMA的数据路径是：

外设 FIFO → 寄存器 → DMA → 内存

每一跳都有延迟和容量限制。

AXI DMA则是：

AXI-Stream → DMA → AXI总线 → DDR控制器 → 内存

整个过程不需要任何中间寄存器，数据从产生那一刻起就直奔目的地。

这就像光纤入户 vs 共享宽带——前者独享信道，后者要层层转发。

2. 长猝发传输显著降低协议开销

AXI支持最长256 beats的INCR突发。假设数据宽度为64位（8字节），一次猝发可达：

256 × 8 =2048 字节

也就是说，只需一次地址相位，就能完成2KB数据的传输。相比之下，普通DMA每16×4=64字节就得重新发地址。

我们算一笔账：

参数	AXI DMA	普通DMA
每次猝发大小	2KB	64B
传输1MB所需猝发次数	512	16,384
地址建立时间占比	~0.5%	~15%+

光是这一项，就能让有效带宽拉开近20%的差距。

3. 全双工 + 流水线 = 并行处理能力

AXI DMA的MM2S和S2MM通道完全独立，意味着你可以一边往外发控制指令（如波形播放），一边往里收反馈数据（如传感器回传），两者互不干扰。

再加上AXI本身支持读写通道分离、响应异步返回，整个系统形成了高效的流水线结构：

[发地址] → [传数据] → [收响应] （读操作） [发地址] → [传数据] → [收响应] （写操作）

这些操作可以在时间上重叠进行，大大提升了总线利用率。

4. Scattered-Gather模式解放CPU

高端AXI DMA控制器（如Xilinx AXI DMA IP）还支持Scatter-Gather（SG）模式，允许使用链表管理多个不连续内存块。

传统DMA要做这件事，必须靠CPU一次次启动新传输；而SG模式下，DMA自己就能根据描述符链表自动跳转到下一个缓冲区，实现无限循环采集。

典型应用场景：
- 视频帧缓存轮换；
- 多通道交替采集；
- 环形缓冲区自动填充；

CPU只需要在最后收个“全部完成”中断即可，真正做到了“启动即遗忘”。

工程实践中必须注意的坑

即便用了AXI DMA，也不代表一定能跑满带宽。以下是几个常见陷阱及应对策略：

❌ 坑点1：缓存没刷干净，读到旧数据！

在Linux系统中，CPU看到的内存可能是Cache中的副本，而DMA操作的是物理内存。如果不做同步，你会发现自己读到的是几天前的“幽灵数据”。

✅解决方法：

// 写之前清Cache __flush_dcache_area(buffer, size); // 或使用内核API dma_sync_single_for_device(dev, dma_handle, size, DMA_TO_DEVICE);

❌ 坑点2：地址没对齐，猝发被打断

AXI要求突发传输的起始地址与数据宽度对齐。例如64位宽、256-beat猝发，建议按64字节边界对齐。

否则AXI Interconnect可能会将其拆分为多个小传输，性能暴跌。

✅解决方法：

// 分配对齐缓冲区 posix_memalign(&buf, 64, BUFFER_SIZE); // 64字节对齐

❌ 坑点3：中断太频繁，CPU累瘫了

如果每个1KB就中断一次，即使传输很快，中断处理也会拖垮系统。

✅解决方法：
- 使用环形缓冲 + 定长分段中断（如每64KB中断一次）；
- 启用计数器中断或空闲检测中断，减少无效唤醒；
- 条件允许时采用轮询模式（适用于确定性实时系统）；

写在最后：选择AXI DMA，其实是选择一种架构思维

很多人还在纠结“要不要用DMA”，但在高性能系统中，这个问题早已升级为：“我该怎么设计我的数据流？”

AXI DMA的价值，远不止“快一点”那么简单。它让你能够：

把FPGA当成协处理器来用，专注于信号处理；
让ARM CPU专心跑算法和协议栈，不用操心数据搬运；
实现真正的“生产者-消费者”模型，各司其职；

当你开始思考“如何让数据自动流动”，而不是“怎么尽快拷完”，你就已经进入了现代嵌入式系统的设计范式。

随着AIoT、边缘计算、5G终端的发展，高带宽、低延迟、确定性将成为标配要求。而AXI DMA，正是打开这扇门的第一把钥匙。

如果你正在做图像处理、雷达采集、工业总线、SDR或者实时控制系统，别再用MCU那一套老思路了——是时候拥抱AXI，重构你的数据通路了。

对具体实现有疑问？欢迎留言讨论。下期我们可以聊聊如何用Vivado搭建一个完整的AXI DMA回环测试工程。