大模型benchmark

大模型推理核心指标及定义表

评估指标 英文全称 指标定义
输出吞吐量 Output Throughput 模型持续生成文本的速度,单位为 tokens/秒(tok/s),反映连续输出场景下的稳定性能
峰值吞吐量 Peak Throughput 模型瞬间能达到的最高文本生成速度,单位为 tokens/秒(tok/s),体现硬件短时算力上限
首token延迟(TTFT) Time To First Token 用户发出请求后,模型生成第一个token(字符)的等待时间,单位为毫秒(ms),影响交互即时性
Mean TTFT(平均首 token 延迟) Mean TTFT
Median TTFT 中位数首 token 延迟
每token延迟(TPOT) Time Per Output Token 模型生成第一个token后,后续每个token(字符)的平均耗时,单位为毫秒(ms),决定持续生成效率
请求吞吐 Request Throughput 系统每秒能成功处理的用户请求数量,单位为 requests/秒(req/s),反映高并发服务能力

在 vLLM benchmark 里,这三个指标的优先级完全取决于你的业务场景和优化目标,没有绝对的“唯一核心指标”,但可以根据场景快速判断重点:

不同场景看指标的重要性 Median TTFT Mean TPOT - Mean TTFT**

🔹 场景 1:实时交互优先(如 Chatbot、客服问答)

核心关注:Median TTFT > Mean TPOT > Mean TTFT

  • Median TTFT(中位数首token延迟):直接反映大多数用户的真实体验。因为它不受极端高延迟的长尾请求干扰,能告诉你“50%的用户需要等多久才能看到第一个字”。比如你之前的结果里,Median TTFT 从 1816ms 降到 248ms(改善 86%),说明绝大多数普通请求的响应速度大幅提升,这是用户感知最明显的优化。
  • Mean TPOT(平均每后续token生成时间):决定回答的“流畅度”。TPOT 越低,后续每个字的生成速度越快,用户会觉得回答是“连续输出”的,而不是卡顿的。
  • Mean TTFT(平均首token延迟):参考价值较弱,因为它容易被少数极端高延迟的请求(如长序列、高负载请求)拉高,不能代表普遍体验。

🔹 场景 2:批量吞吐/效率优先(如高并发 API、批量内容生成)

核心关注:Mean TPOT > Median TTFT > Mean TTFT

  • Mean TPOT:直接决定系统的吞吐量上限(吞吐量 = 1/TPOT × 并发数)。TPOT 越低,单位时间生成的 token 越多,系统效率越高,成本越低。
  • Median TTFT:确保多数请求的首token延迟不会太差,避免用户因等待过久而流失。
  • Mean TTFT:同样受长尾请求影响较大,主要用于排查调度策略是否存在资源竞争问题。

🔹 场景 3:运维排查/系统稳定性

核心关注:Median TTFT 与 Mean TTFT 的差值 > 单独看某一个

  • 如果两者差距很大(比如你的例子里 Mean TTFT 恶化但 Median TTFT 变好),说明存在长尾请求或调度策略问题
    • 可能是新增了长序列请求,或者调度策略优先处理短请求,导致少数长请求被延后,推高了平均值。
    • 这时候需要排查是否需要优化调度策略(如设置请求优先级、限制最大序列长度),或者增加资源冗余。

🎯 结合你的 Benchmark 结果

从你提供的数据来看:

  • Median TTFT 大幅改善:说明绝大多数普通请求的体验变好了,这是核心优化亮点。
  • Mean TPOT 改善:后续输出更流畅,用户体验进一步提升。
  • Mean TTFT 恶化:是少数极端高延迟请求导致的,需要针对性排查(比如是否有长序列请求、资源竞争),但不代表整体体验变差。

如果你需要,我可以帮你整理一份vLLM Benchmark 指标排查清单,针对“均值与中位数背离”这类问题给出具体的排查步骤和优化建议。需要吗?

posted @ 2026-01-20 08:39  向着朝阳  阅读(2)  评论(0)    收藏  举报