vLLM模型脚本目录规范

一、通用结论(直接可用)

代码和环境放 HOME,模型和数据放 /data,缓存显式指定,脚本集中管理。
推荐在 /opt/data 下做 vLLM 部署,在用户 HOME 下只放代码与虚拟环境

  • 模型(大文件)/data/models
  • vLLM 服务 / 脚本/opt/vllm~/vllm
  • 虚拟环境 → 与代码同级
  • 日志 / benchmark/data/logs

大模型存放的目录


/data
 ├── models/                     # ⭐ 所有大模型权重(重点)
 │    ├── Qwen2.5-14B/
 │    ├── Qwen2.5-7B/
 │    └── Llama-3-8B/
 │
 ├── hf/                         # HuggingFace 缓存
 │    ├── hub/
 │    └── transformers/
 │
 ├── logs/
 │    └── vllm/
 │         ├── serve/
 │         └── benchmark/
 │
 └── benchmarks/                 # 吞吐/延迟测试结果


/opt
 └── vllm/
      ├── vllm-env/          # python venv
      ├── scripts/
      │    ├── serve.sh
      │    ├── benchmark.sh
      │    └── env.sh
      ├── config/
      │    └── qwen14b.yaml
      └── README.md

如果你没有 /opt 权限(AutoDL 很常见):

/home/your_user/
 └── vllm/
      ├── vllm-env/
      ├── scripts/
      └── config/

模型下载目录:这是最重要的点

1️⃣ HuggingFace 默认行为(不推荐长期用)

~/.cache/huggingface/hub/

问题:

  • HOME 爆盘
  • 不好管理
  • 多用户/多实验混乱

2️⃣ 正确做法:显式指定模型目录(强烈推荐)

方法一:设置环境变量(最常用)

export HF_HOME=/data/hf
export TRANSFORMERS_CACHE=/data/hf/transformers
export HF_HUB_CACHE=/data/hf/hub

然后模型会下载到:

/data/hf/hub/models--Qwen--Qwen2.5-14B

方法二:直接指定模型路径(vLLM 最推荐)

vllm serve /data/models/Qwen2.5-14B \
  --tensor-parallel-size 1

你可以先手动下载:

huggingface-cli download Qwen/Qwen2.5-14B \
  --local-dir /data/models/Qwen2.5-14B \
  --local-dir-use-symlinks False

四、vLLM 部署脚本一般放哪里?

推荐:专门一个 scripts 目录

vllm/
 ├── scripts/
 │    ├── serve_qwen14b.sh
 │    ├── serve_qwen7b.sh
 │    ├── benchmark.sh

示例 serve_qwen14b.sh

#!/bin/bash

source ../vllm-env/bin/activate

export CUDA_VISIBLE_DEVICES=0
export HF_HOME=/data/hf

vllm serve /data/models/Qwen2.5-14B \
  --dtype float16 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.9 \
  --port 8000

七、给你一个“最小可执行”实践流程(照着做)

# 1. 创建目录
mkdir -p /data/models
mkdir -p ~/vllm/scripts

# 2. 创建虚拟环境
cd ~/vllm
python3 -m venv vllm-env
source vllm-env/bin/activate
pip install vllm torch

# 3. 下载模型
huggingface-cli download Qwen/Qwen2.5-14B \
  --local-dir /data/models/Qwen2.5-14B \
  --local-dir-use-symlinks False

# 4. 启动
vllm serve /data/models/Qwen2.5-14B

posted @ 2026-01-19 14:00  向着朝阳  阅读(1)  评论(0)    收藏  举报