大模型benchmark(指标)
大模型推理核心指标及定义表
Mean
英/miːn/
n. 平均数
adj. 吝啬的;平均的
v. 意味着;打算
- n. The mean of 3, 5 and 7 is 5.
3、5、7的平均数是5。 - adj. He is too mean to buy gifts for others.
他太吝啬了,从不给别人买礼物。 - v. This result means our experiment is successful.
这个结果意味着我们的实验成功了。
Median
英/ˈmiːdiən/
n. 中位数
adj. 中间的;中位数的
- n. The median of 2, 4, 6, 8 is 5.
2、4、6、8的中位数是5。 - adj. The median price of houses in this area is high.
该地区房屋的中位数价格很高。
理想值
| 指标 | 合理 | 偏紧张 | 不可接受 |
|---|---|---|---|
| Median TTFT (P50) | ≤ 300 ms | 300–800 ms | > 1 s |
| Mean TTFT | ≤ 500 ms | 0.5–1.2 s | > 1.5 s |
| P99 TTFT | ≤ 1.5 s | 1.5–3 s | > 3 s |
| 请求吞吐 (req/s) | 接近线性增长 | 增长放缓 | 不再增长 |
| 输出吞吐 (tok/s) | 接近硬件上限 | 80–90% | < 70% |
是的,在 vLLM 推理加速场景下,对大模型做压测,核心指标就是你列的这些,而且它们分别对应 不同层面的性能问题。下面我按“是否必须 + 含义 + 看什么结论”给你一个生产级解释框架。
一、你列的这些是不是核心指标?——结论
是的,完全正确,而且是 vLLM 官方和生产实践中最关键的一组指标:
-
吞吐量(Requests/sec 或 Tokens/sec)
-
TTFT(Time To First Token)
- Mean TTFT
- Median TTFT(P50)
- P99 TTFT
这几个指标,已经可以 完整刻画 vLLM 的推理性能瓶颈。
二、每个指标到底衡量什么(非常关键)
1️⃣ 吞吐量(Throughput)
常见形式
- Requests/sec(req/s)
- Output tokens/sec(tok/s) ← vLLM 更关注这个
含义
单位时间内 GPU 实际“干了多少活”
- 吞吐量高 ⇒ GPU 利用率高 ⇒ vLLM batching 成功
- 吞吐量低 ⇒ batch 没拼起来 / 参数不合理 / GPU 空转
vLLM 场景下你应该重点看:
- Output token throughput
- 而不是单纯 req/s(请求长短不一致时会误导)
2️⃣ TTFT(Time To First Token)——极其重要
定义
从请求发出 → 模型返回第一个 token 的时间
这直接决定:
- 用户是否觉得“卡”
- 智能客服 / Agent 是否“有响应感”
3️⃣ Mean / Median / P99 TTFT 的区别
Median TTFT(P50)
- 典型用户体验
- 说明系统在“正常负载”下是否流畅
Mean TTFT
- 容易被极端慢请求拉高
- 用来观察系统是否存在整体抖动
P99 TTFT(生产最重要)
最坏 1% 请求的首 token 延迟
这是:
- SLA / SLO 指标
- 高并发下 batching、排队是否失控的信号
如果你看到:
- P50 = 200ms
- P99 = 3s
不同场景看指标的重要性 Median TTFT Mean TPOT - Mean TTFT**
🔹 场景 1:实时交互优先(如 Chatbot、客服问答)
核心关注:Median TTFT > Mean TPOT > Mean TTFT
- Median TTFT(中位数首token延迟):直接反映大多数用户的真实体验。因为它不受极端高延迟的长尾请求干扰,能告诉你“50%的用户需要等多久才能看到第一个字”。比如你之前的结果里,Median TTFT 从 1816ms 降到 248ms(改善 86%),说明绝大多数普通请求的响应速度大幅提升,这是用户感知最明显的优化。
- Mean TPOT(平均每后续token生成时间):决定回答的“流畅度”。TPOT 越低,后续每个字的生成速度越快,用户会觉得回答是“连续输出”的,而不是卡顿的。
- Mean TTFT(平均首token延迟):参考价值较弱,因为它容易被少数极端高延迟的请求(如长序列、高负载请求)拉高,不能代表普遍体验。
🔹 场景 2:批量吞吐/效率优先(如高并发 API、批量内容生成)
核心关注:Mean TPOT > Median TTFT > Mean TTFT
- Mean TPOT:直接决定系统的吞吐量上限(吞吐量 = 1/TPOT × 并发数)。TPOT 越低,单位时间生成的 token 越多,系统效率越高,成本越低。
- Median TTFT:确保多数请求的首token延迟不会太差,避免用户因等待过久而流失。
- Mean TTFT:同样受长尾请求影响较大,主要用于排查调度策略是否存在资源竞争问题。
🔹 场景 3:运维排查/系统稳定性
核心关注:Median TTFT 与 Mean TTFT 的差值 > 单独看某一个
- 如果两者差距很大(比如你的例子里 Mean TTFT 恶化但 Median TTFT 变好),说明存在长尾请求或调度策略问题:
- 可能是新增了长序列请求,或者调度策略优先处理短请求,导致少数长请求被延后,推高了平均值。
- 这时候需要排查是否需要优化调度策略(如设置请求优先级、限制最大序列长度),或者增加资源冗余。
🎯 结合你的 Benchmark 结果
从你提供的数据来看:
- Median TTFT 大幅改善:说明绝大多数普通请求的体验变好了,这是核心优化亮点。
- Mean TPOT 改善:后续输出更流畅,用户体验进一步提升。
- Mean TTFT 恶化:是少数极端高延迟请求导致的,需要针对性排查(比如是否有长序列请求、资源竞争),但不代表整体体验变差。
如果你需要,我可以帮你整理一份vLLM Benchmark 指标排查清单,针对“均值与中位数背离”这类问题给出具体的排查步骤和优化建议。需要吗?

浙公网安备 33010602011771号