目标:在本地/私有化 LLM 部署中降低推理成本,覆盖批处理、动态批次、KV 缓存复用、I/O 优化与监控回归。
1. 成本来源
- 算力:GPU/CPU 占用、功耗、并发不足导致的浪费;
- I/O:模型加载、磁盘/网络延迟;
- Tokens:上下文过长、重复提示;
- 并发与队列:小批次、高切换造成吞吐低。
2. 批处理与动态批次
- 固定批次:控制
max-num-batched-tokens(vLLM)、max_batch_prefill_tokens(TGI),兼顾显存与吞吐; - 动态批次:按请求排队到阈值或超时即发,提升吞吐;
- 预填充分片(chunked prefill):长上下文切分,降低显存峰值。
3. KV 缓存复用
- 复用系统 prompt/模板的 KV,减少重复计算;
- 分页 KV(PagedAttention)降低碎片;
- LRU 淘汰策略,保护热点前缀;
- 长会话可用摘要/截断,避免爆缓存。