vLLM模型脚本目录规范

- 一、通用结论（直接可用）
大模型存放的目录
模型下载目录：这是最重要的点

一、通用结论（直接可用）

代码和环境放 HOME，模型和数据放 /data，缓存显式指定，脚本集中管理。
推荐在 /opt 或 /data 下做 vLLM 部署，在用户 HOME 下只放代码与虚拟环境

模型（大文件） → /data/models
vLLM 服务 / 脚本 → /opt/vllm 或 ~/vllm
虚拟环境 → 与代码同级
日志 / benchmark → /data/logs

大模型存放的目录


/data
 ├── models/                     # ⭐ 所有大模型权重（重点）
 │    ├── Qwen2.5-14B/
 │    ├── Qwen2.5-7B/
 │    └── Llama-3-8B/
 │
 ├── hf/                         # HuggingFace 缓存
 │    ├── hub/
 │    └── transformers/
 │
 ├── logs/
 │    └── vllm/
 │         ├── serve/
 │         └── benchmark/
 │
 └── benchmarks/                 # 吞吐/延迟测试结果

/opt
 └── vllm/
      ├── vllm-env/          # python venv
      ├── scripts/
      │    ├── serve.sh
      │    ├── benchmark.sh
      │    └── env.sh
      ├── config/
      │    └── qwen14b.yaml
      └── README.md

如果你没有 /opt 权限（AutoDL 很常见）：

/home/your_user/
 └── vllm/
      ├── vllm-env/
      ├── scripts/
      └── config/

模型下载目录：这是最重要的点

1️⃣ HuggingFace 默认行为（不推荐长期用）

~/.cache/huggingface/hub/

问题：

HOME 爆盘
不好管理
多用户/多实验混乱

2️⃣ 正确做法：显式指定模型目录（强烈推荐）

方法一：设置环境变量（最常用）

export HF_HOME=/data/hf
export TRANSFORMERS_CACHE=/data/hf/transformers
export HF_HUB_CACHE=/data/hf/hub

然后模型会下载到：

/data/hf/hub/models--Qwen--Qwen2.5-14B

方法二：直接指定模型路径（vLLM 最推荐）

vllm serve /data/models/Qwen2.5-14B \
  --tensor-parallel-size 1

你可以先手动下载：

huggingface-cli download Qwen/Qwen2.5-14B \
  --local-dir /data/models/Qwen2.5-14B \
  --local-dir-use-symlinks False

四、vLLM 部署脚本一般放哪里？

推荐：专门一个 scripts 目录

vllm/
 ├── scripts/
 │    ├── serve_qwen14b.sh
 │    ├── serve_qwen7b.sh
 │    ├── benchmark.sh

示例 serve_qwen14b.sh：

#!/bin/bash

source ../vllm-env/bin/activate

export CUDA_VISIBLE_DEVICES=0
export HF_HOME=/data/hf

vllm serve /data/models/Qwen2.5-14B \
  --dtype float16 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.9 \
  --port 8000

七、给你一个“最小可执行”实践流程（照着做）

# 1. 创建目录
mkdir -p /data/models
mkdir -p ~/vllm/scripts

# 2. 创建虚拟环境
cd ~/vllm
python3 -m venv vllm-env
source vllm-env/bin/activate
pip install vllm torch

# 3. 下载模型
huggingface-cli download Qwen/Qwen2.5-14B \
  --local-dir /data/models/Qwen2.5-14B \
  --local-dir-use-symlinks False

# 4. 启动
vllm serve /data/models/Qwen2.5-14B

posted @ 2026-01-19 14:00 向着朝阳阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

aibi1

vLLM模型脚本目录规范

一、通用结论（直接可用）

大模型存放的目录

模型下载目录：这是最重要的点

1️⃣ HuggingFace 默认行为（不推荐长期用）

2️⃣ 正确做法：显式指定模型目录（强烈推荐）

方法一：设置环境变量（最常用）

方法二：直接指定模型路径（vLLM 最推荐）

四、vLLM 部署脚本一般放哪里？

推荐：专门一个 scripts 目录

七、给你一个“最小可执行”实践流程（照着做）

公告