docker 容器化部署 vLLM 启动大模型
环境:centos 8.x、显卡L20 46Gx 5块
1、安装好NVIDIA Container Toolkit组件
参考我上一篇文件中的3.1:安装nvidia容器支持,链接 https://www.cnblogs.com/zhaolongisme/p/18912077
2、下载vLLM镜像和大模型文件
# 拉取vLLM最新版本镜像
docker pull vllm/vllm-openai:latest
模型下载地址: https://hf-mirror.com/Qwen
3、启动容器脚本
# vLLM容器化启动脚本
#! /bin/bash
docker stop my_vllm_container && docker rm my_vllm_container
docker run -d --runtime nvidia --gpus all \
--name my_vllm_container \
--env "HUGGING_FACE_HUB_TOKEN=<secret>" \
-v /data/vLLM/huggingface/Qwen/Qwen3-4B-Instruct-2507:/models/Qwen3-4B-Instruct-2507 \
-p 11434:8000 \
--ipc=host \
vllm/vllm-openai:latest \
--model /models/Qwen3-4B-Instruct-2507 \ #指定引用的模型
--tensor-parallel-size 4 \ #启动4块
--gpu-memory-utilization 0.15 \ #允许使用GPU的百分比
--max-model-len 12048 #长度
# --kv-cache-dtype fp8 #引用此参数会使vLLM版本降低使用
# 查看容器日志
docker logs -f my_vllm_container
4、# 通过curl调用API接口:
curl -X POST "http://111.202.106.174:11434/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "/models/Qwen3-4B-Instruct-2507",
"messages": [
{
"role": "user",
"content": "天空为什么是蓝色的?"
}
]
}'
浙公网安备 33010602011771号