向着朝阳 - 博客园

2026年1月19日

摘要：目录1️⃣ 顶部信息2️⃣ GPU 列表3️⃣ 进程列表4️⃣ 总结 watch -n 2 "nvidia-smi --query-gpu=timestamp,utilization.gpu,memory.used,memory.total,temperature.gpu --format=csv" 阅读全文

posted @ 2026-01-19 21:03 向着朝阳阅读(213) 评论(0) 推荐(0)

Ray和vLLM职责边界

摘要：目录一句话结论（先记住）一、Ray 的资源模型（核心概念）二、Ray 实际调度的是“服务器里的哪张 GPU”1️⃣ GPU 在 Ray 中的表示2️⃣ Ray 不会把一整个服务器“绑死”三、Ray 管理粒度总结四、Ray 与 vLLM 的“职责边界”（非常重要）当 Ray + vLLM 一起用时五、阅读全文

posted @ 2026-01-19 17:54 向着朝阳阅读(89) 评论(0) 推荐(0)

单机单卡部署

摘要：目录1. 确保在 py312 环境2. 卸载冲突包3. 安装依赖，先基础包使用官方AWQ量化后的模型部署1️⃣ 问题背景2️⃣ --model Qwen/Qwen-14B-AWQ3️⃣ --quantization awq4️⃣ 总结逻辑BitsAndBytes 量化后部署脚本1️⃣ 你需要做的修改阅读全文

posted @ 2026-01-19 16:58 向着朝阳阅读(139) 评论(0) 推荐(0)

Ray 调度框架的作用

摘要：目录2️⃣ Ray 的作用 2️⃣ Ray 的作用 Ray / 分布式调度主要用于：多节点 / 多模型请求调度自动把请求分配到最空闲的 worker 处理大规模并发请求（千 QPS 级别）多模型/异构 GPU 调度同时部署小模型 + 大模型，或者不同上下文规格模型自动路由请求到合适 GPU 阅读全文

posted @ 2026-01-19 16:12 向着朝阳阅读(13) 评论(0) 推荐(0)

vLLM推理加速学习过程

摘要：目录1️⃣ 基础阶段能力（必会）2️⃣ 优化阶段能力（加分项）高阶高阶学习展开高阶阶段学习优先级📌 总结优先级表 1️⃣ 基础阶段能力（必会） Python / PyTorch 基础能够加载大模型，执行前向推理能理解 GPU 显存使用、device 管理 vLLM 基本使用单 GPU 上运行阅读全文

posted @ 2026-01-19 16:08 向着朝阳阅读(70) 评论(0) 推荐(0)

8bit量化技术选型

摘要：目录总结AWQ/GPTQ 只在高精度/特殊硬件场景才用。1️⃣ “高精度”场景具体表现：2️⃣ “特殊硬件场景”具体表现：3️⃣ 结合来看对比表格总结 LoRA 微调阶段不量化 → 推理阶段再 8bit 量化 → BitsAndBytes 足够工业生产。AWQ/GPTQ 只在高精度/特殊硬件场景才阅读全文

posted @ 2026-01-19 15:54 向着朝阳阅读(90) 评论(0) 推荐(0)

vLLM模型脚本目录规范

摘要：目录一、通用结论（直接可用）大模型存放的目录模型下载目录：这是最重要的点1️⃣ HuggingFace 默认行为（不推荐长期用）2️⃣ 正确做法：显式指定模型目录（强烈推荐）方法一：设置环境变量（最常用）方法二：直接指定模型路径（vLLM 最推荐）四、vLLM 部署脚本一般放哪里？推荐：专门一个 s 阅读全文

posted @ 2026-01-19 14:00 向着朝阳阅读(234) 评论(0) 推荐(0)

2026年1月18日

K线阳包阴规则

摘要：目录三、富途 PC 里如何“可实现地”配置（不玩玄学）方案 A：严格阳包阴（推荐）三、富途 PC 里如何“可实现地”配置（不玩玄学）方案 A：严格阳包阴（推荐）用「昨日 / 前一日」的 K 线：条件 1：昨日是阴线昨日收盘价 < 昨日开盘价条件 2：当日是阳线当日收盘价 > 当日开盘价阅读全文

posted @ 2026-01-18 11:11 向着朝阳阅读(23) 评论(0) 推荐(0)

2026年1月17日

vLLM架构TP PP DP选择

摘要：目录总结理论知识1. Tensor Parallel (TP) 的作用2. Pipeline Parallel (PP) 的作用3. Data Parallel (DP) 的作用二、重新整理部署策略表（TP 必须）三、核心逻辑要不要PP一句话结论（先给结论）一、先澄清一个常见误解（很重要）二、判断是阅读全文

posted @ 2026-01-17 11:49 向着朝阳阅读(476) 评论(0) 推荐(0)

2026年1月16日

万卡的部署架构

摘要：目录一、理解题意二、回答思路（Step by Step）1️⃣ 量化和模型副本2️⃣ 模型并行策略3️⃣ 推理请求调度4️⃣ 弹性伸缩和高可用5️⃣ 核心要点总结（面试回答模板）原理一、为什么 GPU 之间会频繁通信1️⃣ Tensor Parallel (TP)2️⃣ Pipeline Paral 阅读全文

posted @ 2026-01-16 21:47 向着朝阳阅读(62) 评论(0) 推荐(0)

aibi1

公告