大模型benchmark

大模型推理核心指标及定义表

评估指标	英文全称	指标定义
输出吞吐量	Output Throughput	模型持续生成文本的速度，单位为 tokens/秒（tok/s），反映连续输出场景下的稳定性能
峰值吞吐量	Peak Throughput	模型瞬间能达到的最高文本生成速度，单位为 tokens/秒（tok/s），体现硬件短时算力上限
首token延迟（TTFT）	Time To First Token	用户发出请求后，模型生成第一个token（字符）的等待时间，单位为毫秒（ms），影响交互即时性
Mean TTFT（平均首 token 延迟）	Mean TTFT
Median TTFT	中位数首 token 延迟
每token延迟（TPOT）	Time Per Output Token	模型生成第一个token后，后续每个token（字符）的平均耗时，单位为毫秒（ms），决定持续生成效率
请求吞吐	Request Throughput	系统每秒能成功处理的用户请求数量，单位为 requests/秒（req/s），反映高并发服务能力

在 vLLM benchmark 里，这三个指标的优先级完全取决于你的业务场景和优化目标，没有绝对的“唯一核心指标”，但可以根据场景快速判断重点：

核心关注：Median TTFT > Mean TPOT > Mean TTFT

Median TTFT（中位数首token延迟）：直接反映大多数用户的真实体验。因为它不受极端高延迟的长尾请求干扰，能告诉你“50%的用户需要等多久才能看到第一个字”。比如你之前的结果里，Median TTFT 从 1816ms 降到 248ms（改善 86%），说明绝大多数普通请求的响应速度大幅提升，这是用户感知最明显的优化。
Mean TPOT（平均每后续token生成时间）：决定回答的“流畅度”。TPOT 越低，后续每个字的生成速度越快，用户会觉得回答是“连续输出”的，而不是卡顿的。
Mean TTFT（平均首token延迟）：参考价值较弱，因为它容易被少数极端高延迟的请求（如长序列、高负载请求）拉高，不能代表普遍体验。

核心关注：Mean TPOT > Median TTFT > Mean TTFT

Mean TPOT：直接决定系统的吞吐量上限（吞吐量 = 1/TPOT × 并发数）。TPOT 越低，单位时间生成的 token 越多，系统效率越高，成本越低。
Median TTFT：确保多数请求的首token延迟不会太差，避免用户因等待过久而流失。
Mean TTFT：同样受长尾请求影响较大，主要用于排查调度策略是否存在资源竞争问题。

核心关注：Median TTFT 与 Mean TTFT 的差值 > 单独看某一个

如果两者差距很大（比如你的例子里 Mean TTFT 恶化但 Median TTFT 变好），说明存在长尾请求或调度策略问题：
- 可能是新增了长序列请求，或者调度策略优先处理短请求，导致少数长请求被延后，推高了平均值。
- 这时候需要排查是否需要优化调度策略（如设置请求优先级、限制最大序列长度），或者增加资源冗余。

从你提供的数据来看：

如果你需要，我可以帮你整理一份vLLM Benchmark 指标排查清单，针对“均值与中位数背离”这类问题给出具体的排查步骤和优化建议。需要吗？

posted @ 2026-01-20 08:39 向着朝阳阅读(2) 评论(0) 收藏举报

刷新页面返回顶部