会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
aibi1
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
10
11
12
13
14
15
16
17
18
···
81
下一页
2026年1月19日
vLLM模型脚本目录规范
摘要: 目录一、通用结论(直接可用)大模型存放的目录模型下载目录:这是最重要的点1️⃣ HuggingFace 默认行为(不推荐长期用)2️⃣ 正确做法:显式指定模型目录(强烈推荐)方法一:设置环境变量(最常用)方法二:直接指定模型路径(vLLM 最推荐)四、vLLM 部署脚本一般放哪里?推荐:专门一个 s
阅读全文
posted @ 2026-01-19 14:00 向着朝阳
阅读(84)
评论(0)
推荐(0)
2026年1月18日
K线阳包阴规则
摘要: 目录三、富途 PC 里如何“可实现地”配置(不玩玄学)方案 A:严格阳包阴(推荐) 三、富途 PC 里如何“可实现地”配置(不玩玄学) 方案 A:严格阳包阴(推荐) 用「昨日 / 前一日」的 K 线: 条件 1:昨日是阴线 昨日收盘价 < 昨日开盘价 条件 2:当日是阳线 当日收盘价 > 当日开盘价
阅读全文
posted @ 2026-01-18 11:11 向着朝阳
阅读(10)
评论(0)
推荐(0)
2026年1月17日
vLLM架构TP PP DP选择
摘要: 目录总结理论知识1. Tensor Parallel (TP) 的作用2. Pipeline Parallel (PP) 的作用3. Data Parallel (DP) 的作用二、重新整理部署策略表(TP 必须)三、核心逻辑要不要PP一句话结论(先给结论)一、先澄清一个常见误解(很重要)二、判断是
阅读全文
posted @ 2026-01-17 11:49 向着朝阳
阅读(162)
评论(0)
推荐(0)
2026年1月16日
万卡的部署架构
摘要: 目录一、理解题意二、回答思路(Step by Step)1️⃣ 量化和模型副本2️⃣ 模型并行策略3️⃣ 推理请求调度4️⃣ 弹性伸缩和高可用5️⃣ 核心要点总结(面试回答模板)原理一、为什么 GPU 之间会频繁通信1️⃣ Tensor Parallel (TP)2️⃣ Pipeline Paral
阅读全文
posted @ 2026-01-16 21:47 向着朝阳
阅读(11)
评论(0)
推荐(0)
Qwen-14B 推理和训练的显存占用对比
摘要: 目录Qwen-14B(8bit)推理 vs LoRA 训练显存占用注解 推理:8bit 权重,KV Cache 按 seq_len≈2K 训练:8bit 权重,Batch=1,seq_len≈2K,开启 gradient checkpoint(不存储中间激活),使用 LoRA 微调 Optimize
阅读全文
posted @ 2026-01-16 21:32 向着朝阳
阅读(126)
评论(0)
推荐(0)
大模型部署 tensor parallel vs 单个模型放一张GPU
摘要: 目录一、先给最终结论(不绕弯)✅ 结论一:是不是 2 个模型服务?✅ 结论二:用 Tensor Parallel 还是“一卡一模型”?二、为什么「不能」用 Tensor Parallel(这是重点)1️⃣ Tensor Parallel 的本质成本2️⃣ TP 会破坏你“上下文分池”的意义3️⃣ 推
阅读全文
posted @ 2026-01-16 20:49 向着朝阳
阅读(57)
评论(0)
推荐(0)
vLLM 调优(2)--gpu-memory-utilization
摘要: 目录结论GPU服务器的物理内存,不能太小,否则会无法启动大模型。 CUDA Graph 录制阶段:约 4GB - 8GB + 模型权重(8bit量化qwen14 约为 15GB)+ 操作系统2-4G+python加载大模型的额外开销。 比如部署qwen14B,64GB RAM为比较安全的大小。1.
阅读全文
posted @ 2026-01-16 19:13 向着朝阳
阅读(256)
评论(0)
推荐(0)
vLLM KVCache 评估
摘要: 目录1️⃣ hidden_sizeQwen 系列举例2️⃣ dtype3️⃣ 结合公式举例✅ 总结QWEN14B GPU显存分布 KV Cache = max_model_len × batch × hidden_size × 2 × dtype 符号 含义 max_model_len 上下文长度(
阅读全文
posted @ 2026-01-16 18:24 向着朝阳
阅读(94)
评论(0)
推荐(0)
vllm推理加速之 - continuous batching +Rag合并请求优化
摘要: 目录最大吞吐量的“三剑客”batch 设置多大合适1️⃣ 影响 batch 大小的核心因素2️⃣ 工程经验参考表3️⃣ 结合显存计算4️⃣ 连续批 + Ray 调度策略5️⃣ 工程实践总结 最大吞吐量的“三剑客” 手段 作用 备注 1️⃣ Continuous Batching vLLM 内部把短请
阅读全文
posted @ 2026-01-16 18:15 向着朝阳
阅读(52)
评论(0)
推荐(0)
Ray调度-请求合并策略
摘要: 目录1️⃣ Ray 的基本能力2️⃣ 合并策略设计a. Batch Window(时间窗口)b. Max Batch Size(最大 batch 大小)c. 优先级队列d. Batch 拆分 / 显存估算3️⃣ Ray + vLLM 合并示意4️⃣ 核心特点 好,我来详细拆解 Ray 在 AI 推理
阅读全文
posted @ 2026-01-16 16:11 向着朝阳
阅读(32)
评论(0)
推荐(0)
上一页
1
···
10
11
12
13
14
15
16
17
18
···
81
下一页
公告