摘要:
目录为什么需求请求合并和分优先级1️⃣ 为什么需要 优先级队列(Priority Queue)场景示例2️⃣ 为什么需要 请求合并(Batching / Merging)a. 控制 batch 策略b. 高级调度策略3️⃣ 总结1️⃣ Ray 能做什么2️⃣ 工作流程示意3️⃣ 为什么用 Ray 而 阅读全文
posted @ 2026-01-16 16:06
向着朝阳
阅读(22)
评论(0)
推荐(0)
摘要:
目录null二、你这个场景的“硬指标”已知三、第一层:全局入口 QPS 限流(兜底)四、第二层:按上下文池限流(最重要)2048 上下文池4096 上下文池五、第三层:token 级限流(真正专业的做法)为什么 QPS 不够?Token Bucket(推荐)对你这个系统:六、第四层:用户 / 租户限 阅读全文
posted @ 2026-01-16 15:24
向着朝阳
阅读(21)
评论(0)
推荐(0)
摘要:
目录同一个模型尺寸在生产部署不同的上下文规格(max-model-len)的集群。案例。 智能客服 400QPS,峰值500QPS,每个query,平均1k token。 在高并发场景下 同一个模型尺寸在生产部署不同的上下文规格(max-model-len)的集群。 比如 max-model-len 阅读全文
posted @ 2026-01-16 13:21
向着朝阳
阅读(5)
评论(0)
推荐(0)
摘要:
目录总结一句话精确定义二、为什么它对显存影响这么大(核心原因)KV Cache 的分配方式是:三、区分三个“容易混淆”的长度概念四、举一个非常具体的例子场景请求 A请求 B五、为什么“输入很短也 OOM”?六、在生产环境的正确使用方式1️⃣ 服务端(vLLM 启动参数)2️⃣ 客户端(API 侧约束 阅读全文
posted @ 2026-01-16 12:25
向着朝阳
阅读(434)
评论(0)
推荐(0)

浙公网安备 33010602011771号