摘要:
目录 启动脚本 #!/usr/bin/env bash set -e export CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server \ --model /data/models/Qwen1.5-14B-Chat- 阅读全文
posted @ 2026-01-19 22:44
向着朝阳
阅读(8)
评论(0)
推荐(0)
摘要:
目录短文本测试中等长度测试长文本测试 短文本测试 vllm bench serve --model /data/models/Qwen1.5-14B-Chat-AWQ --backend vllm --base-url http://localhost:8000 --endpoint /v1/com 阅读全文
posted @ 2026-01-19 22:26
向着朝阳
阅读(49)
评论(0)
推荐(0)
摘要:
目录查看模型路径压测命令安装压力测试工具或者用官方示例 Python 脚本实时监控显存/GPU使用率或者查看特定进程top 或 htop 实时查看或者更精确 查看模型路径 curl http://127.0.0.1:8000/v1/models {"object":"list","data":[{" 阅读全文
posted @ 2026-01-19 22:17
向着朝阳
阅读(14)
评论(0)
推荐(0)
摘要:
目录1. 最简单 - 查看总体状态2. 查看进程列表和显存3. 查看进程显存占用(CSV 格式,易读)4. 找到占用 GPU 的所有进程 PID5. 查看某个 PID 的详细信息(替换 )6. 杀掉某个进程(替换 )7. 批量杀掉所有占用 GPU 的进程 1. 最简单 - 查看总体状态 nvidia 阅读全文
posted @ 2026-01-19 22:10
向着朝阳
阅读(20)
评论(0)
推荐(0)
摘要:
目录1️⃣ 顶部信息2️⃣ GPU 列表3️⃣ 进程列表4️⃣ 总结 watch -n 2 "nvidia-smi --query-gpu=timestamp,utilization.gpu,memory.used,memory.total,temperature.gpu --format=csv" 阅读全文
posted @ 2026-01-19 21:03
向着朝阳
阅读(117)
评论(0)
推荐(0)
摘要:
目录一句话结论(先记住)一、Ray 的资源模型(核心概念)二、Ray 实际调度的是“服务器里的哪张 GPU”1️⃣ GPU 在 Ray 中的表示2️⃣ Ray 不会把一整个服务器“绑死”三、Ray 管理粒度总结四、Ray 与 vLLM 的“职责边界”(非常重要)当 Ray + vLLM 一起用时五、 阅读全文
posted @ 2026-01-19 17:54
向着朝阳
阅读(28)
评论(0)
推荐(0)
摘要:
目录1. 确保在 py312 环境2. 卸载冲突包3. 安装依赖,先基础包使用官方AWQ量化后的模型部署1️⃣ 问题背景2️⃣ --model Qwen/Qwen-14B-AWQ3️⃣ --quantization awq4️⃣ 总结逻辑BitsAndBytes 量化后部署脚本1️⃣ 你需要做的修改 阅读全文
posted @ 2026-01-19 16:58
向着朝阳
阅读(37)
评论(0)
推荐(0)
摘要:
目录2️⃣ Ray 的作用 2️⃣ Ray 的作用 Ray / 分布式调度主要用于: 多节点 / 多模型请求调度 自动把请求分配到最空闲的 worker 处理大规模并发请求(千 QPS 级别) 多模型/异构 GPU 调度 同时部署小模型 + 大模型,或者不同上下文规格模型 自动路由请求到合适 GPU 阅读全文
posted @ 2026-01-19 16:12
向着朝阳
阅读(2)
评论(0)
推荐(0)
摘要:
目录1️⃣ 基础阶段能力(必会)2️⃣ 优化阶段能力(加分项)高阶高阶学习展开高阶阶段学习优先级📌 总结优先级表 1️⃣ 基础阶段能力(必会) Python / PyTorch 基础 能够加载大模型,执行前向推理 能理解 GPU 显存使用、device 管理 vLLM 基本使用 单 GPU 上运行 阅读全文
posted @ 2026-01-19 16:08
向着朝阳
阅读(14)
评论(0)
推荐(0)
摘要:
目录总结AWQ/GPTQ 只在高精度/特殊硬件场景才用。1️⃣ “高精度”场景具体表现:2️⃣ “特殊硬件场景”具体表现:3️⃣ 结合来看对比表格 总结 LoRA 微调阶段不量化 → 推理阶段再 8bit 量化 → BitsAndBytes 足够工业生产。AWQ/GPTQ 只在高精度/特殊硬件场景才 阅读全文
posted @ 2026-01-19 15:54
向着朝阳
阅读(29)
评论(0)
推荐(0)

浙公网安备 33010602011771号