下面这组指标,基本构成了我现在判断一个 LLM 服务是否有较好体验的核心视角。
也可以参考下面这个图:
一、TTFT(Time To First Token)首字时间
TTFT 指的是:
从客户端发出请求,到收到第一个 token的时间。
为什么重要?
因为它几乎等同于——用户对“这个系统快不快”的第一印象。
经验上非常直观:
- 1 秒以内:感觉是“即时响应”。
- 3 秒以上:开始怀疑是不是卡了。
- 5 秒以上:用户已经准备切走。
在对话式、交互式场景中,
TTFT 比完整响应时间更影响主观体验。
二、TPOT(Time Per Output Token)
每个 token 的生成节奏
TPOT 是指:
相邻两个 token 之间的平均时间间隔。
它解决的不是“快不快”,而是“顺不顺”。
- TPOT 高 → 输出像“卡带”。
- TPOT 低 → 输出像“打字”。
同样生成 100 个 token:
- 100 ms/token:用户会明显感到断续。
- 30 ms/token:体验会非常顺滑。
这也是为什么“模型看起来没慢,但体验很差”,往往问题出在 TPOT 上。
三、TPS(Token Per Second)每秒生成 token 数
TPS 是一个纯工程视角下的核心效率指标。
它通常要分两层看:
- 单请求 TPS:单个请求的生成能力。
- 集群 TPS:整个服务的“产能上限”。
对于长文本、代码生成、报告撰写这类任务,TPS 直接决定任务完成时间。
四、响应时间分布(p50 / p95 / p99)
平均值在压测里几乎是最不可靠的指标。真正有意义的是分位数:
- p50:典型用户体验。
- p95:绝大多数用户体验。
- p99:系统在极端情况下的表现。
有些问题,只会在 p99 里暴露出来。
五、QPS(每秒请求数)
这是一个很“直观”,但非常容易被误解的指标。
QPS 高,不等于系统强
要看:
- 错误率有没有上升。
- 延迟曲线有没有恶化。
- TPS 有没有被拖垮。
在实际系统中, 稳定QPS往往比峰值 QPS 更有价值。
六、吞吐量(Throughput)
在 LLM 场景下,吞吐量往往直接等价为 TPS。
但一个容易忽略的点是:
同样的 QPS,不同的吞吐量,系统价值完全不同。
在大模型服务中:
- QPS 描述的是:能同时接多少请求。
- 吞吐量 / TPS 描述的是:单位时间真正生成了多少内容。
举个例子,两套系统,参数完全一样,QPS 都是 100:
系统 A
- 平均每个请求生成 20 token
- 吞吐量 = 2,000 token/s
系统 B
- 平均每个请求生成 200 token
- 吞吐量 = 20,000 token/s
从 QPS 看,两者“性能相当”;
从吞吐量看,系统 B 的有效产出是系统 A 的 10 倍。
所以:
- 成本效率。
- 算力利用率。
- 商业定价(按 token 计费)。
最终都落在吞吐量上。
七、错误率(Error Rate):不是“多少”,而是“顺序”
在大模型服务中,错误率从来不只是“有没有报错”,而是一个高度结构化的信号源。
因为在 LLM 系统里,错误的来源极其多样:
- HTTP 层错误(4xx / 5xx):反映的是网关、负载均衡、服务实例层面的稳定性问题。
- 推理失败 / 超时:往往意味着调度、排队、算力分配已经出现系统性压力。
- OOM / 显存不足:直接指向模型并发策略、batch 设计或上下文管理问题。
- 输入长度超限:看似是“用户问题”,但本质是系统边界条件是否被清晰设计。
为什么错误顺序非常重要?
在压测过程中,错误往往不是同时出现的,而是有明确的“先后顺序”。
而这个顺序,本身就是一条因果链:
- 4xx 先出现,可能是接口约束、参数校验、产品设计存在问题。
- 超时先出现,但无OOM,可能是排队时间过长、调度策略或 TTFT 已经失控。
- OOM 先出现,可能是batch 过大、KV cache 或并发上下文设计不合理。
- 5xx 大规模出现,可能是服务已经进入不可恢复状态。
错误的“第一击”,通常就是系统真正的瓶颈点。
一个非常实用的判断方式:
如果你关心的是“系统能不能用”,看错误率;
如果你关心的是“系统哪里不对”,看错误出现的顺序。
最后,建议搭配linux工具查看硬件的资源利用率
资源利用率,开始变成“因果线索”,从而在大模型压测里,它开始承担一种新的角色,去解释为什么指标会变成这样。
比如:
- GPU 利用率很低,但延迟很高,
那么,可能是 CPU / IO / 调度在拖慢。
- GPU 利用率很高,但 TPS 上不去
那么,可能是batch / 并行策略有问题。
- 内存水位稳定爬升
那么,可能是请求队列或上下文没释放干净。
Key Takeaways:
第一层:用户感知层(体验是否“像人”)
重点看:
(1)TTFT(Time To First Token):系统多久“开口说话”,是否像“即时响应”。
(2)TPOT(Time Per Output Token):说话顺不顺,决定生成过程的“流畅感”。
(3)响应时间分布(p50 / p95 / p99):多数用户 vs 极端用户体验,因为长尾问题只会在 p99 出现。
这一层的核心判断,是 首字 + 节奏 + 长尾。
第二层:系统产能层(系统到底“能干多少活”)
重点看:
(1)QPS(Queries Per Second):能接多少请求。
(2)吞吐量 / TPS(Token Per Second):单位时间生成多少 token,是真正的“有效产出”。
(3)单请求 TPS vs 集群 TPS:单体效率 vs 整体上限。
这一层的核心判断,是QPS决定规模,TPS决定价值。
第三层:稳定性与边界层(系统会不会崩)
重点看
(1)错误率(Error Rate):不仅仅“多少”,而是“结构和顺序”。
(2)资源利用率:GPU 利用率,CPU 利用率,内存 / 显存等。
这一层的核心判断,是依靠错误锁定系统真实瓶颈。
综上,TTFT 决定第一印象,TPOT 决定生成过程是否顺滑,TPS 和吞吐量决定系统是否真的在创造价值。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。