参数速查表
参数 | 定义/含义 | 对AI部署的影响 | 选型建议/要点 |
---|---|---|---|
架构/家族 | GPU微架构代号(Turing、Ampere、Ada、Hopper…) | 决定是否支持FP8/TF32、Transformer Engine、MIG、NVLink代际等 | LLM训练与高端推理优先Hopper(如H100/H200);通用训练/推理与视频AI可考虑Ada(如L40S/L4) |
Compute Capability | SM版本号(如 8.0/8.6/8.9/9.0) | 影响编译器与库的优化路径;旧版本逐步减少支持 | 新项目优先≥8.0;Hopper为9.0;注意框架对低版本的弃用节奏 |
Tensor Core精度支持 | 硬件支持的矩阵精度:FP8、BF16、FP16、TF32、INT8/INT4等 | 训练/推理吞吐、延迟与能效的核心来源 | 需要FP8选Hopper;BF16/FP16训练广泛可用;INT8/INT4推理看框架和模型支持 |
峰值算力(各精度) | 理论TFLOPS/TOPS(FP32/TF32/FP16/BF16/FP8/INT8…) | 上限吞吐指标;实际取决于内存与kernel优化 | 对比同级别时优先看TF32/FP16/BF16/FP8能力;仅FP32不代表AI实效 |
2:4结构化稀疏性 | 硬件对半稀疏矩阵的加速 | 满足2:4稀疏可获得显著提速 | Ampere及以上支持;依赖软件图优化与权重稀疏化策略 |
CUDA核心/SM数量 | 标量/向量核心与流式多处理器数 | 粗粒度并行度参考 | 更建议以Tensor Core算力作主要对比依据 |
L2缓存容量 | 片上二级缓存大小 | 注意力、LayerNorm、embedding等访存密集算子受益 | 越大越好;新架构通常显著提升 |
显存容量(VRAM) | 板载显存大小 | 决定可承载的模型、batch、seq长度与MIG切片能力 | 训练按12–20 B/参数估算;推理=权重+KV缓存;建议预留20–30%余量 |
显存类型 | HBM2e/HBM3/HBM3e vs GDDR6/GDDR6X | HBM带宽/延迟远高于GDDR | 大模型训练/高带宽负载优先HBM;边缘/视频推理GDDR性价比更高 |
显存带宽 | 每秒可用的内存读写字节数 | 带宽受限工作负载(注意力、卷积、嵌入)瓶颈关键 | HBM常见2–5 TB/s,GDDR常见300–1000 GB/s;越高越好 |
显存总线宽度 | 位宽(如384-bit 或 HBM堆栈宽总线) | 影响带宽上限与并发通道 | 与带宽一并评估;配合显存类型判断 |
显存ECC | 纠错机制(开/关) | 可靠性、数据完整性;轻微影响容量与性能 | 数据中心部署建议开启;部分GDDR卡可切换 |
NVLink/NVSwitch | GPU↔GPU高速互联/交换 | 多卡训练/推理同步效率与可扩展性 | 强多卡训练优先SXM + NVSwitch方案;多数PCIe卡无NVLink或仅两卡桥接 |
PCIe代际/通道 | Host↔GPU接口(Gen4/Gen5 x16等) | 主机↔GPU数据搬运;无NVLink时的GPU↔GPU交换 | 新平台优先Gen5;对流式推理/多媒体链路更关键 |
GPUDirect RDMA/Storage | NIC/存储直达GPU内存 | 降低CPU占用与端到端延迟 | 需配套NIC/存储与驱动栈;大吞吐低延迟平台优先 |
BAR1/Resizable BAR | CPU一次映射GPU内存窗口大小 | 大张量映射/主机直读性能 | 服务器主板+BIOS开启支持更好 |
MIG(多实例GPU) | 单卡切分为多个隔离实例 | 多租户推理的QoS与资源利用率 | A100/H100等支持;按SLA与并发量规划切片 |
MPS/并发流 | 多进程/多流共享GPU | 提升吞吐但可能增大尾延迟 | 推理服务常配合使用;与MIG取舍 |
vGPU/虚拟化 | vGPU/SR-IOV虚拟化能力 | 云桌面/多租户隔离与许可成本 | 需额外许可;核对支持矩阵与SLA |
TDP/板卡功耗 | 典型功耗上限 | 机柜供电/散热规划与能效成本 | 预留20–30%供电/散热余量;关注瞬态峰值 |
散热/风道 | 被动/主动风冷、液冷;进出风方向 | 机箱兼容、热稳定与密度 | 服务器用被动;工作站用主动;高密可能用液冷 |
形态/接口 | PCIe卡、SXM模块、尺寸/槽位 | 部署形态与密度(单机多卡/HGX) | 高密/强扩展用SXM-HGX;注意主板/机箱兼容 |
供电接口 | 8-pin、12VHPWR、服务器供电端子 | 线材/电源/安全 | 严格按厂商规范;服务器整机配套更安全 |
驱动/CUDA版本 | 驱动分支与CUDA Toolkit | 框架/库兼容与新特性可用性 | 锁定容器中的驱动+CUDA组合;遵循NVIDIA支持矩阵 |
库/框架支持 | cuBLAS/cuDNN/TensorRT/NCCL/Triton等 | 内核优化与端到端性能、功能 | 确认目标版本已针对所选架构优化(如FP8、TE) |
编解码引擎 | NVENC/NVDEC通道数/规格 | 视频/多模态推理的摄入吞吐 | 视频AI优先具备多路编解码(如L4/L40S) |
RAS/可观测性 | ECC事件、温度/功耗、DCGM/NVML遥测 | 可靠性与运维可视化 | 数据中心SKU支持更完善;接入DCGM监控 |
长供与保修 | 生命周期/备件/厂保 | 大规模部署与运维风险 | 优先DC/OEM渠道;关注LTS与备件策略 |
价格/能效/TCO | 购置价、Perf/W、机电与运维成本 | ROI与SLA兑现能力 | 用P99延迟与吞吐测算,而非仅峰值算力对比 |
显存/带宽/算力的快速估算与门槛
-
训练显存粗估
- FP16/BF16 + Adam/AdamW 情况下,参数相关显存占用约为 12–16 字节/参数(含权重、梯度、优化器状态与可能的主权重),再加上激活与临时张量。
- 激活显存与模型结构、微批大小、是否使用激活检查点有关,常与参数显存同量级(使用梯度检查点可下降至 ~1/2–1/4)。
- 经验:总训练显存 ≈ 参数开销 + 激活与临时开销,并为碎片与编译缓存预留20–30%。
-
推理显存粗估
- 权重显存:W = N_params ×(权重量化位宽/8)
- KV缓存显存(简化近似,适用于Transformer):KV ≈ 2 × L × H_size × T × B × bytes,其中 L为层数,H_size为hidden size,T为序列长度(包含上下文与生成),B为批量,bytes为缓存精度字节(FP16=2,FP8=1,INT8=1 等)。实际还需乘以一定开销系数(如1.1–1.3)以覆盖实现细节。
- 降低KV缓存占用的方法:缓存量化(FP8/INT8)、分块注意力、Paged KV Cache、减少并发/上下文、流水并行/张量并行等。
-
带宽对性能的影响
- 注意力、LayerNorm、Embedding、卷积等常见为带宽敏感;HBM对大模型训练/推理提升显著。
- 端到端性能常受“存储→主机→GPU→内核”整链路瓶颈影响,需配合GPUDirect Storage/RDMA与高性能文件系统。
常见AI场景的参数优先级速查
场景 | 首要关注 | 次要关注 | 备注 |
---|---|---|---|
LLM训练(多卡) | 显存容量与带宽(HBM)、NVLink/NVSwitch拓扑、BF16/FP8支持 | PCIe Gen5、NCCL与IB网络、散热功耗 | 大模型优先SXM-HGX;FP8需Hopper;跨节点看IB 200/400G与拓扑 |
LLM推理(服务化) | 显存容量(权重+KV缓存)、INT8/FP8/FP16推理能力、MIG(多租户) | PCIe Gen5与GPUDirect、BAR1、NVDEC(多模态) | 大长序列/高并发KV占用大;多实例用MIG确保QoS |
CV训练(分类/检测/分割/ViT) | FP16/BF16 Tensor吞吐、显存容量 | 带宽、PCIe代际、存储IO | 中大批量训练对带宽与IO敏感 |
视频/多模态推理 | NVDEC/NVENC通道、INT8吞吐、PCIe带宽 | 显存容量、GPUDirect、功耗 | L4/L40S常用;注意解码路数与编解码规格 |
边缘/轻量部署 | 功耗(TDP)、形态尺寸(半高/短卡)、GDDR显存容量 | NVENC/NVDEC、环境温度与风道 | 注重能效与稳态温度;考虑工业温度范围 |
多租户与隔离 | MIG/vGPU、ECC/RAS | 驱动/许可、监控(DCGM) | 严格SLA场景优先MIG与vGPU能力 |
选型核对清单
- 型号与SKU:确认确切产品料号、ECC默认状态、散热形态(被动/主动/液冷)、出风方向、随卡配件(NVLink桥、导风罩)。
- 机箱/主板兼容:插槽数量/间距、PCIe代际/通道、供电接口与电源冗余、风道与机箱背板限制。
- 多卡拓扑:是否SXM-HGX与NVSwitch;若为PCIe卡,确认是否支持NVLink桥接(大多数Ada专业/数据中心卡已取消NVLink桥)。
- 驱动与软件栈:数据中心驱动分支与CUDA版本、cuDNN/cuBLAS/NCCL/TensorRT/Triton版本兼容矩阵;容器镜像与nvidia-container-toolkit版本。
- 存储与网络:GPUDirect Storage/RDMA链路可用性、文件系统与NIC型号/固件、IB/RoCE带宽与拓扑。
- 可靠性与监控:DCGM/NVML接入、ECC事件告警、温度/功耗/时钟策略、固件与BMC集成。
- 供应与保修:生命周期、备件与换修SLA、批次一致性、固件版本管理。
- 基准与验证:用目标模型/负载进行预生产压测(吞吐、P95/P99延迟、能耗),而非仅看理论TFLOPS。
小贴士
- 不同精度的价值:TF32在Ampere/Hopper上对训练上手友好;BF16/FP16是训练主力;FP8是Hopper时代的效率利器(需框架与模型适配);INT8/INT4适合高吞吐推理。
- 显存不是越多越“闲”:长上下文LLM的KV缓存常成为推理瓶颈;优先评估序列长度、并发和缓存量化策略。
- 实测优先:端到端性能受数据管线、内核实现、并发调度、NUMA/拓扑等多因素影响,务必以实测P99延迟与吞吐做最终裁决。
- 参考数据表:具体规格(带宽、NVLink版本、TDP、NVENC路数等)以NVIDIA与OEM官方数据手册为准;同名SKU在不同厂商/批次上可能细节不同。
- 更多NVIDIA显卡选择