向着朝阳 - 博客园

2026年1月19日

摘要：目录一、通用结论（直接可用）大模型存放的目录模型下载目录：这是最重要的点1️⃣ HuggingFace 默认行为（不推荐长期用）2️⃣ 正确做法：显式指定模型目录（强烈推荐）方法一：设置环境变量（最常用）方法二：直接指定模型路径（vLLM 最推荐）四、vLLM 部署脚本一般放哪里？推荐：专门一个 s 阅读全文

posted @ 2026-01-19 14:00 向着朝阳阅读(84) 评论(0) 推荐(0)

2026年1月18日

K线阳包阴规则

摘要：目录三、富途 PC 里如何“可实现地”配置（不玩玄学）方案 A：严格阳包阴（推荐）三、富途 PC 里如何“可实现地”配置（不玩玄学）方案 A：严格阳包阴（推荐）用「昨日 / 前一日」的 K 线：条件 1：昨日是阴线昨日收盘价 < 昨日开盘价条件 2：当日是阳线当日收盘价 > 当日开盘价阅读全文

posted @ 2026-01-18 11:11 向着朝阳阅读(10) 评论(0) 推荐(0)

2026年1月17日

vLLM架构TP PP DP选择

摘要：目录总结理论知识1. Tensor Parallel (TP) 的作用2. Pipeline Parallel (PP) 的作用3. Data Parallel (DP) 的作用二、重新整理部署策略表（TP 必须）三、核心逻辑要不要PP一句话结论（先给结论）一、先澄清一个常见误解（很重要）二、判断是阅读全文

posted @ 2026-01-17 11:49 向着朝阳阅读(162) 评论(0) 推荐(0)

2026年1月16日

万卡的部署架构

摘要：目录一、理解题意二、回答思路（Step by Step）1️⃣ 量化和模型副本2️⃣ 模型并行策略3️⃣ 推理请求调度4️⃣ 弹性伸缩和高可用5️⃣ 核心要点总结（面试回答模板）原理一、为什么 GPU 之间会频繁通信1️⃣ Tensor Parallel (TP)2️⃣ Pipeline Paral 阅读全文

posted @ 2026-01-16 21:47 向着朝阳阅读(11) 评论(0) 推荐(0)

Qwen-14B 推理和训练的显存占用对比

摘要：目录Qwen-14B（8bit）推理 vs LoRA 训练显存占用注解推理：8bit 权重，KV Cache 按 seq_len≈2K 训练：8bit 权重，Batch=1，seq_len≈2K，开启 gradient checkpoint（不存储中间激活），使用 LoRA 微调 Optimize 阅读全文

posted @ 2026-01-16 21:32 向着朝阳阅读(126) 评论(0) 推荐(0)

大模型部署 tensor parallel vs 单个模型放一张GPU

摘要：目录一、先给最终结论（不绕弯）✅ 结论一：是不是 2 个模型服务？✅ 结论二：用 Tensor Parallel 还是“一卡一模型”？二、为什么「不能」用 Tensor Parallel（这是重点）1️⃣ Tensor Parallel 的本质成本2️⃣ TP 会破坏你“上下文分池”的意义3️⃣ 推阅读全文

posted @ 2026-01-16 20:49 向着朝阳阅读(57) 评论(0) 推荐(0)

vLLM 调优（2）--gpu-memory-utilization

摘要：目录结论GPU服务器的物理内存，不能太小，否则会无法启动大模型。 CUDA Graph 录制阶段：约 4GB - 8GB + 模型权重（8bit量化qwen14 约为 15GB）+ 操作系统2-4G+python加载大模型的额外开销。比如部署qwen14B，64GB RAM为比较安全的大小。1. 阅读全文

posted @ 2026-01-16 19:13 向着朝阳阅读(256) 评论(0) 推荐(0)

vLLM KVCache 评估

摘要：目录1️⃣ hidden_sizeQwen 系列举例2️⃣ dtype3️⃣ 结合公式举例✅ 总结QWEN14B GPU显存分布 KV Cache = max_model_len × batch × hidden_size × 2 × dtype 符号含义 max_model_len 上下文长度（阅读全文

posted @ 2026-01-16 18:24 向着朝阳阅读(94) 评论(0) 推荐(0)

vllm推理加速之 - continuous batching +Rag合并请求优化

摘要：目录最大吞吐量的“三剑客”batch 设置多大合适1️⃣ 影响 batch 大小的核心因素2️⃣ 工程经验参考表3️⃣ 结合显存计算4️⃣ 连续批 + Ray 调度策略5️⃣ 工程实践总结最大吞吐量的“三剑客” 手段作用备注 1️⃣ Continuous Batching vLLM 内部把短请阅读全文

posted @ 2026-01-16 18:15 向着朝阳阅读(52) 评论(0) 推荐(0)

Ray调度-请求合并策略

摘要：目录1️⃣ Ray 的基本能力2️⃣ 合并策略设计a. Batch Window（时间窗口）b. Max Batch Size（最大 batch 大小）c. 优先级队列d. Batch 拆分 / 显存估算3️⃣ Ray + vLLM 合并示意4️⃣ 核心特点好，我来详细拆解 Ray 在 AI 推理阅读全文

posted @ 2026-01-16 16:11 向着朝阳阅读(32) 评论(0) 推荐(0)

aibi1

公告