vLLM模型脚本目录规范
目录
一、通用结论(直接可用)
代码和环境放 HOME,模型和数据放 /data,缓存显式指定,脚本集中管理。
推荐在/opt或/data下做 vLLM 部署,在用户 HOME 下只放代码与虚拟环境
- 模型(大文件) →
/data/models - vLLM 服务 / 脚本 →
/opt/vllm或~/vllm - 虚拟环境 → 与代码同级
- 日志 / benchmark →
/data/logs
大模型存放的目录
/data
├── models/ # ⭐ 所有大模型权重(重点)
│ ├── Qwen2.5-14B/
│ ├── Qwen2.5-7B/
│ └── Llama-3-8B/
│
├── hf/ # HuggingFace 缓存
│ ├── hub/
│ └── transformers/
│
├── logs/
│ └── vllm/
│ ├── serve/
│ └── benchmark/
│
└── benchmarks/ # 吞吐/延迟测试结果
/opt
└── vllm/
├── vllm-env/ # python venv
├── scripts/
│ ├── serve.sh
│ ├── benchmark.sh
│ └── env.sh
├── config/
│ └── qwen14b.yaml
└── README.md
如果你没有 /opt 权限(AutoDL 很常见):
/home/your_user/
└── vllm/
├── vllm-env/
├── scripts/
└── config/
模型下载目录:这是最重要的点
1️⃣ HuggingFace 默认行为(不推荐长期用)
~/.cache/huggingface/hub/
问题:
- HOME 爆盘
- 不好管理
- 多用户/多实验混乱
2️⃣ 正确做法:显式指定模型目录(强烈推荐)
方法一:设置环境变量(最常用)
export HF_HOME=/data/hf
export TRANSFORMERS_CACHE=/data/hf/transformers
export HF_HUB_CACHE=/data/hf/hub
然后模型会下载到:
/data/hf/hub/models--Qwen--Qwen2.5-14B
方法二:直接指定模型路径(vLLM 最推荐)
vllm serve /data/models/Qwen2.5-14B \
--tensor-parallel-size 1
你可以先手动下载:
huggingface-cli download Qwen/Qwen2.5-14B \
--local-dir /data/models/Qwen2.5-14B \
--local-dir-use-symlinks False
四、vLLM 部署脚本一般放哪里?
推荐:专门一个 scripts 目录
vllm/
├── scripts/
│ ├── serve_qwen14b.sh
│ ├── serve_qwen7b.sh
│ ├── benchmark.sh
示例 serve_qwen14b.sh:
#!/bin/bash
source ../vllm-env/bin/activate
export CUDA_VISIBLE_DEVICES=0
export HF_HOME=/data/hf
vllm serve /data/models/Qwen2.5-14B \
--dtype float16 \
--max-model-len 8192 \
--gpu-memory-utilization 0.9 \
--port 8000
七、给你一个“最小可执行”实践流程(照着做)
# 1. 创建目录
mkdir -p /data/models
mkdir -p ~/vllm/scripts
# 2. 创建虚拟环境
cd ~/vllm
python3 -m venv vllm-env
source vllm-env/bin/activate
pip install vllm torch
# 3. 下载模型
huggingface-cli download Qwen/Qwen2.5-14B \
--local-dir /data/models/Qwen2.5-14B \
--local-dir-use-symlinks False
# 4. 启动
vllm serve /data/models/Qwen2.5-14B

浙公网安备 33010602011771号