写在前面
大型语言模型 (LLM) 已经渗透到我们数字生活的方方面面,从智能问答、内容创作到代码辅助,其能力令人惊叹。然而,驱动这些强大模型的背后,是对计算资源(尤其是 GPU)的巨大需求。在模型推理 (Inference) 阶段,即模型实际对外提供服务的阶段,速度 (Latency) 和吞吐量 (Throughput) 成为了衡量其可用性的关键指标,也是部署时面临的核心挑战。
Transformer 架构作为现代 LLM 的基石,其核心的自注意力 (Self-Attention) 机制虽然效果拔群,却也是主要的性能瓶颈来源。为了突破这一瓶颈,学术界和工业界提出了众多优化方案。其中,FlashAttention 和 PagedAttention 是两个里程碑式的技术,它们分别从不同角度解决了注意力机制的关键效率问题,并被 vLLM 等高性能推理库广泛采用,极大地提升了 LLM 的推理性能。
但 FlashAttention