向着朝阳 - 博客园

2026年1月16日

摘要：目录Qwen-14B（8bit）推理 vs LoRA 训练显存占用注解推理：8bit 权重，KV Cache 按 seq_len≈2K 训练：8bit 权重，Batch=1，seq_len≈2K，开启 gradient checkpoint（不存储中间激活），使用 LoRA 微调 Optimize 阅读全文

posted @ 2026-01-16 21:32 向着朝阳阅读(246) 评论(0) 推荐(0)

大模型部署 tensor parallel vs 单个模型放一张GPU

摘要：目录一、先给最终结论（不绕弯）✅ 结论一：是不是 2 个模型服务？✅ 结论二：用 Tensor Parallel 还是“一卡一模型”？二、为什么「不能」用 Tensor Parallel（这是重点）1️⃣ Tensor Parallel 的本质成本2️⃣ TP 会破坏你“上下文分池”的意义3️⃣ 推阅读全文

posted @ 2026-01-16 20:49 向着朝阳阅读(130) 评论(0) 推荐(0)

vLLM 调优（2）--gpu-memory-utilization

摘要：目录结论GPU服务器的物理内存，不能太小，否则会无法启动大模型。 CUDA Graph 录制阶段：约 4GB - 8GB + 模型权重（8bit量化qwen14 约为 15GB）+ 操作系统2-4G+python加载大模型的额外开销。比如部署qwen14B，64GB RAM为比较安全的大小。1. 阅读全文

posted @ 2026-01-16 19:13 向着朝阳阅读(770) 评论(0) 推荐(0)

vLLM KVCache 评估

摘要：目录1️⃣ hidden_sizeQwen 系列举例2️⃣ dtype3️⃣ 结合公式举例✅ 总结QWEN14B GPU显存分布 KV Cache = max_model_len × batch × hidden_size × 2 × dtype 符号含义 max_model_len 上下文长度（阅读全文

posted @ 2026-01-16 18:24 向着朝阳阅读(240) 评论(0) 推荐(0)

vllm推理加速之 - continuous batching +Rag合并请求优化

摘要：目录最大吞吐量的“三剑客”batch 设置多大合适1️⃣ 影响 batch 大小的核心因素2️⃣ 工程经验参考表3️⃣ 结合显存计算4️⃣ 连续批 + Ray 调度策略5️⃣ 工程实践总结最大吞吐量的“三剑客” 手段作用备注 1️⃣ Continuous Batching vLLM 内部把短请阅读全文

posted @ 2026-01-16 18:15 向着朝阳阅读(182) 评论(0) 推荐(0)

Ray调度-请求合并策略

摘要：目录1️⃣ Ray 的基本能力2️⃣ 合并策略设计a. Batch Window（时间窗口）b. Max Batch Size（最大 batch 大小）c. 优先级队列d. Batch 拆分 / 显存估算3️⃣ Ray + vLLM 合并示意4️⃣ 核心特点好，我来详细拆解 Ray 在 AI 推理阅读全文

posted @ 2026-01-16 16:11 向着朝阳阅读(61) 评论(0) 推荐(0)

性能优化（1）-请求合并 / 优先级队列-RAY调度器

摘要：目录为什么需求请求合并和分优先级1️⃣ 为什么需要优先级队列（Priority Queue）场景示例2️⃣ 为什么需要请求合并（Batching / Merging）a. 控制 batch 策略b. 高级调度策略3️⃣ 总结1️⃣ Ray 能做什么2️⃣ 工作流程示意3️⃣ 为什么用 Ray 而阅读全文

posted @ 2026-01-16 16:06 向着朝阳阅读(71) 评论(0) 推荐(0)

AI网关限流策略-智能客服

摘要：目录null二、你这个场景的“硬指标”已知三、第一层：全局入口 QPS 限流（兜底）四、第二层：按上下文池限流（最重要）2048 上下文池4096 上下文池五、第三层：token 级限流（真正专业的做法）为什么 QPS 不够？Token Bucket（推荐）对你这个系统：六、第四层：用户 / 租户限阅读全文

posted @ 2026-01-16 15:24 向着朝阳阅读(68) 评论(0) 推荐(0)

大模型部署最佳实战

摘要：目录同一个模型尺寸在生产部署不同的上下文规格（max-model-len）的集群。案例。智能客服 400QPS,峰值500QPS，每个query，平均1k token。在高并发场景下同一个模型尺寸在生产部署不同的上下文规格（max-model-len）的集群。比如 max-model-len 阅读全文

posted @ 2026-01-16 13:21 向着朝阳阅读(29) 评论(0) 推荐(0)

API 参数 max_tokens vLLM max-model-len 模型官方 context length

摘要：目录总结一句话精确定义二、为什么它对显存影响这么大（核心原因）KV Cache 的分配方式是：三、区分三个“容易混淆”的长度概念四、举一个非常具体的例子场景请求 A请求 B五、为什么“输入很短也 OOM”？六、在生产环境的正确使用方式1️⃣ 服务端（vLLM 启动参数）2️⃣ 客户端（API 侧约束阅读全文

posted @ 2026-01-16 12:25 向着朝阳阅读(1309) 评论(0) 推荐(0)

aibi1

公告