别再被“虚假快“迷惑！7个指标教你判断大模型服务真实性能，小白也能秒懂的AI开发干货！

下面这组指标，基本构成了我现在判断一个 LLM 服务是否有较好体验的核心视角。

也可以参考下面这个图：

一、TTFT（Time To First Token）首字时间

TTFT 指的是：

从客户端发出请求，到收到第一个 token的时间。

为什么重要？

因为它几乎等同于——用户对“这个系统快不快”的第一印象。

经验上非常直观：

1 秒以内：感觉是“即时响应”。
3 秒以上：开始怀疑是不是卡了。
5 秒以上：用户已经准备切走。

在对话式、交互式场景中，

TTFT 比完整响应时间更影响主观体验。

二、TPOT（Time Per Output Token）

每个 token 的生成节奏

TPOT 是指：

相邻两个 token 之间的平均时间间隔。

它解决的不是“快不快”，而是“顺不顺”。

TPOT 高 → 输出像“卡带”。
TPOT 低 → 输出像“打字”。

同样生成 100 个 token：

100 ms/token：用户会明显感到断续。
30 ms/token：体验会非常顺滑。

这也是为什么“模型看起来没慢，但体验很差”，往往问题出在 TPOT 上。

三、TPS（Token Per Second）每秒生成 token 数

TPS 是一个纯工程视角下的核心效率指标。

它通常要分两层看：

单请求 TPS：单个请求的生成能力。
集群 TPS：整个服务的“产能上限”。

对于长文本、代码生成、报告撰写这类任务，TPS 直接决定任务完成时间。

四、响应时间分布（p50 / p95 / p99）

平均值在压测里几乎是最不可靠的指标。真正有意义的是分位数：

p50：典型用户体验。
p95：绝大多数用户体验。
p99：系统在极端情况下的表现。

有些问题，只会在 p99 里暴露出来。

五、QPS（每秒请求数）

这是一个很“直观”，但非常容易被误解的指标。

QPS 高，不等于系统强

要看：

错误率有没有上升。
延迟曲线有没有恶化。
TPS 有没有被拖垮。

在实际系统中，稳定QPS往往比峰值 QPS 更有价值。

六、吞吐量（Throughput）

在 LLM 场景下，吞吐量往往直接等价为 TPS。

但一个容易忽略的点是：

同样的 QPS，不同的吞吐量，系统价值完全不同。

在大模型服务中：

QPS 描述的是：能同时接多少请求。
吞吐量 / TPS 描述的是：单位时间真正生成了多少内容。

举个例子，两套系统，参数完全一样，QPS 都是 100：

系统 A

平均每个请求生成 20 token
吞吐量 = 2,000 token/s

系统 B

平均每个请求生成 200 token
吞吐量 = 20,000 token/s

从 QPS 看，两者“性能相当”；

从吞吐量看，系统 B 的有效产出是系统 A 的 10 倍。

所以：

成本效率。
算力利用率。
商业定价（按 token 计费）。

最终都落在吞吐量上。

七、错误率（Error Rate）：不是“多少”，而是“顺序”

在大模型服务中，错误率从来不只是“有没有报错”，而是一个高度结构化的信号源。

因为在 LLM 系统里，错误的来源极其多样：

HTTP 层错误（4xx / 5xx）：反映的是网关、负载均衡、服务实例层面的稳定性问题。
推理失败 / 超时：往往意味着调度、排队、算力分配已经出现系统性压力。
OOM / 显存不足：直接指向模型并发策略、batch 设计或上下文管理问题。
输入长度超限：看似是“用户问题”，但本质是系统边界条件是否被清晰设计。

为什么错误顺序非常重要？

在压测过程中，错误往往不是同时出现的，而是有明确的“先后顺序”。

而这个顺序，本身就是一条因果链：

4xx 先出现，可能是接口约束、参数校验、产品设计存在问题。
超时先出现，但无OOM，可能是排队时间过长、调度策略或 TTFT 已经失控。
OOM 先出现，可能是batch 过大、KV cache 或并发上下文设计不合理。
5xx 大规模出现，可能是服务已经进入不可恢复状态。

错误的“第一击”，通常就是系统真正的瓶颈点。

一个非常实用的判断方式：

如果你关心的是“系统能不能用”，看错误率；

如果你关心的是“系统哪里不对”，看错误出现的顺序。

最后，建议搭配linux工具查看硬件的资源利用率

资源利用率，开始变成“因果线索”，从而在大模型压测里，它开始承担一种新的角色，去解释为什么指标会变成这样。

比如：

GPU 利用率很低，但延迟很高，

那么，可能是 CPU / IO / 调度在拖慢。

GPU 利用率很高，但 TPS 上不去

那么，可能是batch / 并行策略有问题。

内存水位稳定爬升

那么，可能是请求队列或上下文没释放干净。

Key Takeaways:

第一层：用户感知层（体验是否“像人”）

重点看：

（1）TTFT（Time To First Token）：系统多久“开口说话”，是否像“即时响应”。

（2）TPOT（Time Per Output Token）：说话顺不顺，决定生成过程的“流畅感”。

（3）响应时间分布（p50 / p95 / p99）：多数用户 vs 极端用户体验，因为长尾问题只会在 p99 出现。

这一层的核心判断，是首字 + 节奏 + 长尾。

第二层：系统产能层（系统到底“能干多少活”）

重点看：

（1）QPS（Queries Per Second）：能接多少请求。

（2）吞吐量 / TPS（Token Per Second）：单位时间生成多少 token，是真正的“有效产出”。

（3）单请求 TPS vs 集群 TPS：单体效率 vs 整体上限。

这一层的核心判断，是QPS决定规模，TPS决定价值。

第三层：稳定性与边界层（系统会不会崩）

重点看

（1）错误率（Error Rate）：不仅仅“多少”，而是“结构和顺序”。

（2）资源利用率：GPU 利用率，CPU 利用率，内存 / 显存等。

这一层的核心判断，是依靠错误锁定系统真实瓶颈。

综上，TTFT 决定第一印象，TPOT 决定生成过程是否顺滑，TPS 和吞吐量决定系统是否真的在创造价值。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。