上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 81 下一页
摘要: 目录参数设置实践一、vLLM 显存占用与 OOM 的关系二、如何在压测时发现潜在 OOM1️⃣ 观察指标2️⃣ “危险显存占比”参考三、调节策略1️⃣ 调整 --gpu-memory-utilization2️⃣ 调整 batch_token / seq3️⃣ 压测建议四、工程实践经验查看显存使用情 阅读全文
posted @ 2026-01-20 16:35 向着朝阳 阅读(515) 评论(0) 推荐(0)
摘要: 目录一、先给结论:推荐的生产级调优顺序(修正版)✅ 推荐顺序(你可以直接照这个跑)Step 1:确定业务级 max-model-len(你这一步是对的)Step 2:单参数扫 max-num-batched-tokens(不是 seq)为什么优先 batch_token?Step 3:在 batch 阅读全文
posted @ 2026-01-20 16:00 向着朝阳 阅读(38) 评论(0) 推荐(0)
摘要: 目录1️⃣ 参数含义max_num_batched_tokens--max-num-seqsvLLM 调参总览(生产 vs 实验)一、生产环境 必调参数(强相关稳定性 & 性能)二、生产环境强烈建议(在线服务关键优化)三、“看场景用”的参数(半生产 / 半实验)四、实验 / Benchmark / 阅读全文
posted @ 2026-01-20 15:47 向着朝阳 阅读(269) 评论(0) 推荐(0)
摘要: 目录一、一句话定义(先记住这个)二、一次完整推理在 vLLM 里的两个阶段三、Prefill 在“干什么”Prefill 阶段做的事情四、Decode 是什么(对比理解)Decode 阶段:五、Prefill vs Decode:性能差异(非常重要)六、为什么 Prefill 会成为性能瓶颈1️⃣ 阅读全文
posted @ 2026-01-20 15:41 向着朝阳 阅读(77) 评论(0) 推荐(0)
摘要: 目录一、先给一句“严格定义”二、用一个具体输入完整跑一遍输入 Prompt(用户发给 API)1️⃣ Tokenizer 后(示意)三、Prefill(回顾,用一句带过)四、Decode 的逐步展开(关键部分)Decode Step 1(生成第 1 个新 token)输入给模型的是什么?模型内部做什 阅读全文
posted @ 2026-01-20 15:30 向着朝阳 阅读(13) 评论(0) 推荐(0)
摘要: 目录原理细节一、结论先行(精确版)二、Prefix Caching 在 vLLM 中到底做了什么1️⃣ 没开 Prefix Caching(你现在的状态)2️⃣ 开了 --enable-prefix-caching三、为什么我说“不是字符串层面”1️⃣ tokenizer 是决定性因素2️⃣ 模板稍 阅读全文
posted @ 2026-01-20 14:54 向着朝阳 阅读(353) 评论(0) 推荐(0)
摘要: 目录一、单参数扫描 vs 多参数联合扫描1️⃣ 单参数扫描(推荐先做)2️⃣ 多参数联合扫描(Grid Search / Random Search)二、实践中的工程思路(4090 + vLLM 14B AWQ 场景)Step 1:单参数扫描Step 2:范围缩小后联合扫描Step 3:指标记录与可 阅读全文
posted @ 2026-01-20 13:07 向着朝阳 阅读(61) 评论(0) 推荐(0)
摘要: 目录总结三、使用 --enable-flash-attn 的前提条件(很重要)✅ 硬件要求一、--enable-flash-attn 是做什么的(原理层)1️⃣ 传统 Attention 的问题2️⃣ FlashAttention 的核心思想二、在 vLLM + Qwen 14B + RTX 409 阅读全文
posted @ 2026-01-20 12:08 向着朝阳 阅读(214) 评论(0) 推荐(0)
摘要: 目录最终版:4090 24G 部署 Qwen 14B-AWQ 命令关键参数解释(针对学习场景)学习测试配套命令(验证优化效果)总结 结合 4090 24G 显卡特性 + FlashAttention 核心优化 + 适配 Qwen 14B-AWQ 的学习场景,我为你整理了最优的 vLLM 部署命令,兼 阅读全文
posted @ 2026-01-20 11:52 向着朝阳 阅读(61) 评论(0) 推荐(0)
摘要: 目录大模型推理核心指标及定义表MeanMedian理想值一、你列的这些是不是核心指标?——结论二、每个指标到底衡量什么(非常关键)1️⃣ 吞吐量(Throughput)常见形式含义vLLM 场景下你应该重点看:2️⃣ TTFT(Time To First Token)——极其重要定义3️⃣ Mean 阅读全文
posted @ 2026-01-20 08:39 向着朝阳 阅读(107) 评论(0) 推荐(0)
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 81 下一页