1. 设备概述
基于VU3PFPGA板卡100Gbps光纤收发采集存储设备,是高性能、光纤数据采集与存储一体化解决方案。
本设备是一款专为超高速、大容量数据采集与存储需求设计的高端硬件平台,以 1路100Gbps全双工光纤通信为核心,结合高性能主板、PCIE 3.0 X16高速总线架构 和 NVMe RAID存储系统,实现100Gbps光纤数据的接收、发送、处理与持久化存储,PCIe峰值带宽达 8GB/s以上。适用于科研实验、工业检测、医疗影像、军事通信等高带宽场景。
2. 主要硬件内容
1. 主板与计算单元
主板型号:X12spa-TF(超微服务器级主板)
CPU型号:Intel Xeon W-3335
① 10核20线程,主频3.4GHz(睿频4.0GHz),24.75MB缓存
② 支持 PCIe 4.0通道(向下兼容3.0),提供 64条通道数,充分释放多设备并行性能
③ 最大内存支持 1TB DDR4 ECC RDIMM,保障数据处理稳定性
2. 高速光纤采集卡
型号:太速科技628 PCIe 3.0 ×16 采集卡
核心能力:
① 2路QSFP28光纤接口,支持 100Gbps/路 全双工传输
② 符合 PCIE 3.0 ×16接口标准,无瓶颈支持8GB/s持续吞吐
③ 硬件级数据预处理(如时间戳标记、帧校验),降低CPU负载
3. 超高速存储系统
RAID卡:SSD7505(支持PCIe 4.0 ×16)
① 支持 RAID 0/1/5/10,提供数据冗余或极致速度模式
② 最大支持 4×NVMe SSD 直连,理论带宽 32GB/s(PCIe 4.0 ×16)
存储介质:三星990 Pro NVMe M.2 SSD ×4
① 单盘性能:读取7,450MB/s,写入6,900MB/s(1TB/2TB版本)
② 总存储容量:4TB/8TB可选(4×1TB/4×2TB)
③ RAID 0模式下,理论存储速度突破 20GB/s,轻松匹配采集带宽
3. 整机性能优势
一、全双工光纤数据吞吐
1路QSFP28光纤通道,支持同时收发,单路100Gbps
二、无瓶颈数据传输
PCIe 3.0 ×16总线,确保8GB/s以上持续传输稳定性
三、存储速度匹配采集
RAID 0模式下,4×990 Pro SSD持续写入速度达 12GB/s+,远超采集带宽需求
4. 软件架构与功能详解
在硬件高性能基础上,本设备配备自主研发的上位机控制软件及底层驱动,形成 “硬件加速+软件智能” 的完整解决方案。软件系统基于 Qt 5.15框架(C++开发)与 Visual Studio 2015 环境构建,支持跨平台部署(Windows/Linux),核心功能覆盖设备控制、状态监控、数据管理全流程。
软件系统分层设计
1. 驱动与通信层
XDMA引擎:
① 基于 Xilinx XDMA IP核 实现FPGA与上位机的PCIE 3.0 ×16高速通信
② 支持 DMA零拷贝传输,双向传输带宽稳定维持 8GB/s以上
③ 提供 独立DMA队列,确保光纤数据并行无冲突
FPGA交互协议:
④ 自定义 指令-数据分离协议,通过PCIE BAR空间映射控制寄存器
⑤ 支持光纤通道启停、数据包长度配置、触发模式设置等实时控制
2. 上位机核心功能模块
一、设备自检与初始化
① 开机自动扫描硬件(主板、采集卡、RAID卡、SSD)状态
② 检测FPGA固件版本兼容性
二、光纤链路管理
① 实时监测1路QSFP28光模块 的链路状态(光功率、误码率、连接状态)
② 异常告警(界面弹窗+日志记录),支持自动重连与通道切换
三、存储管理
① RAID模式切换(需重启生效)、SSD健康度监测(SMART信息解析)
② 数据存储路径自定义,支持循环覆盖存储与按时间分片存储
3. 跨平台支持
Windows/Linux双版本
Windows版:基于 WinDriver PCIe驱动/XDMA,兼容Win7/10/11(64位)
Linux版:采用 内核态Char驱动,支持Ubuntu 16.04+/CentOS 7.6+
5. 详细硬件组成
5.1. 超威X12SPA服务器
超威服务器X12SPA提供4个PCIE4.0 X16槽位,其中三个X16可以通过芯片PI3DBS16412配置成两个X8,所以服务器主板可提供6个4.0X8槽位以及一个4.0 X16槽位,剩余槽位可有用户自由搭配。
5.2. 628光纤采集卡
- VU3P外挂两簇DDR4,数据位宽64-bit,每组容量2GByte,可稳定运行在2400MT/s;
- VU3P外挂一片BPI x16 NorFlash,容量1Gb,用于系统配置程序存储;
- VU3P加载模式为BPI模式;
- VU3P外接两路QSFP28,支持100Gbps传输速率;
- VU3P支持PCIE Gen3 x16模式,传输速率最高可达8000Mbyte/s。
5.3. 磁盘阵列卡
磁盘阵列卡是由HighPoint SSD7505 带4块三星990pro的NVME固态盘组成。
火箭 SSD7000系列M.2 RAID AIC卡提供PCIe Gen3/Gen4、2口/4口/8口配置的RAID解决方案,支持任何行业标准的M.2 NVMe SSD。火箭SSD7505是4端口NVMe存储解决方案。单个控制器可以提供高达28000MB/s的传输速度。
三星990proNVME硬盘优点:
1、极致读写性能:顺序读取速度高达7450 MB/s,写入速度达6900 MB/s,接近PCIe 4.0的理论带宽极限
2、智能技术与缓存优化:TurboWrite 2.0技术:动态SLC缓冲区容量大幅提升,2TB版本的智能缓存空间达226GB,显著增强大文件连续写入的稳定性。主控芯片根据使用习惯优化数据存储位置,提升高频数据访问效率,同时延长寿命。
3、与阵列卡适配较好
使用此配置阵列卡,极致的读写性能可以保证采集卡5GB/s落盘速度外,还可以保证用户其他一些使用不受影响,满足客户其他使用需求。
6. 软件具体实现及接口信息
6.1. aurora接口协议
协议:aurora 64B66B
线速率:25Gbps
Lane:4
模式:全双工、流模式
6.2. FPGA实现框架
FPGA开发工具:Vivado 2018.3
PC通过寄存器控制FPGA软件进行光纤的采集与发送工作,软件可动态配置光纤发送数据、光纤接收数据的DDR空间。
PC与FPGA的PCIE接口采样XDMA MM模式,把DDR空间挂载在PCIE上,打开PC访问DDR空间的通道。
采集流程:上位机发送采集指令,FPGA开始采集数据,把采集数据放入fifo,再把fifo的数据写入DDR中,之后通知上位机拿走数据。
发送流程:上位机把数据写入DDR中,通知FPGA拿走数据,写入fifo中,把数据通过光纤口发送出去。
6.3. 上位机软件
软件系统基于 Qt 5.15框架(C++开发)与 Visual Studio 2015 环境构建,支持跨平台部署(Windows/Linux)。
软件启动查询自检:
1、检查硬盘挂载、硬盘使用过量、初始化状态、配置文件等
2、扫描板卡硬件状态,光纤链接状态等信息
7. 固件高速读写方案
|
特性 |
XDMA (PCIe 3.0 x16) |
QDMA (PCIe 3.0 x16) |
|
报告速率 (C2H) |
约 8000 MB/s |
约 1660 MB/s(单通道) * 8 |
|
报告速率 (H2C) |
约 8200 MB/s |
约 1670 MB/s(单通道) * 8 |
|
理论带宽 |
约 15.75 GB/s |
约 15.75 GB/s |
|
DMA映射方式 |
流式DMA映射 |
一致性DMA映射 |
|
队列/通道机制 |
少量专用DMA通道 |
多达2048个队列,资源共享 |
|
适用场景 |
对并发性要求不高的传统应用 |
高吞吐、多任务、低延迟的现代应用 |
7.1. XDMA 有效读写速度
|
PCIE速率 |
读 |
写 |
|
3.0 X16 |
8000MB/s |
8200MB/s |
|
3.0 X8 |
5600MB/s |
5200MB/s |
|
2.0 X8 |
2700MB/s |
2500MB/s |
|
3.0 X4 |
2800MB/s |
2600MB/s |
|
2.0 X4 |
1400MB/s |
1400MB/s |
7.2. QDMA有效读写速度
|
PCIE速率 |
读 |
写 |
|
3.0 X16 |
13280MB/s |
13360MB/s |
PCIe 3.0 x16 C2H DMA速率
|
|
DMA0 |
DMA1 |
DMA2 |
DMA3 |
DMA4 |
DMA5 |
DMA6 |
DMA7 |
|
速率 |
1660MB/s |
1660MB/s |
1660MB/s |
1660MB/s |
1660MB/s |
1660MB/s |
1660MB/s |
1660MB/s |
PCIe 3.0 x16 H2C DMA速率
|
|
DMA0 |
DMA1 |
DMA2 |
DMA3 |
DMA4 |
DMA5 |
DMA6 |
DMA7 |
|
速率 |
1670MB/s |
1670MB/s |
1670MB/s |
1670MB/s |
1670MB/s |
1670MB/s |
1670MB/s |
1670MB/s |
PCIe 3.0 x8 C2H DMA速率
|
|
DMA0 |
DMA1 |
DMA2 |
DMA3 |
DMA4 |
DMA5 |
DMA6 |
DMA7 |
|
速率 |
880MB/s |
880MB/s |
880MB/s |
880MB/s |
880MB/s |
880MB/s |
880MB/s |
880MB/s |
PCIe 3.0 x8 H2C DMA速率
|
|
DMA0 |
DMA1 |
DMA2 |
DMA3 |
DMA4 |
DMA5 |
DMA6 |
DMA7 |
|
速率 |
890MB/s |
890MB/s |
890MB/s |
890MB/s |
890MB/s |
890MB/s |
890MB/s |
890MB/s |
可采用QDMA框架进行固件升级。
缓存管理策略:这是影响性能的关键因素之一。XDMA 采用流式DMA映射,每次数据传输前后都需要由CPU执行缓存失效或清除操作以确保数据一致性,这会带来额外的开销。而 QDMA 采用一致性DMA映射,由硬件自动维护缓存一致性,大大减少了CPU的干预,从而降低了延迟和CPU占用。
队列架构与并发能力:XDMA 提供数量固定的专用DMA通道(例如4个主机到卡和4个卡到主机通道),当多个任务同时进行时,可能因争用通道而影响效率。QDMA 则支持多达2048个队列,这些队列共享DMA引擎资源,能更好地处理大量并发数据传输请求,特别适合虚拟化或多应用场景
8. 技术规格一览表
|
组件 |
型号/参数 |
性能指标 |
|
主板 |
超微X12spa-TF |
支持Xeon W-3300系列,8×DDR4插槽 |
|
CPU |
Xeon W-3335 |
10C/20T, 3.4-4.0GHz |
|
采集卡 |
太速628 PCIe 3.0 ×16 |
2×100Gbps,硬件预处理 |
|
RAID卡 |
SSD7505 |
PCIe 4.0 ×8,4×NVMe接口 |
|
存储 |
三星990 Pro ×4(M.2 NVMe) |
RAID 0下持续写入≥10GB/s |
|
系统带宽 |
PCIe+存储 |
采集8GB/s,存储10GB/s |
9. 应用场景
① 工业检测:半导体晶圆检测、高速生产线视觉数据实时存储
② 科研领域:粒子对撞实验数据采集、射电天文信号记录
③ 医疗影像:超高清CT/MRI影像实时处理与归档
④ 军事通信:多通道雷达信号同步采集与加密存储