docker 容器化部署 vLLM 启动大模型

环境:centos 8.x、显卡L20 46Gx 5块

1、安装好NVIDIA Container Toolkit组件

      参考我上一篇文件中的3.1:安装nvidia容器支持,链接 https://www.cnblogs.com/zhaolongisme/p/18912077

2、下载vLLM镜像和大模型文件

# 拉取vLLM最新版本镜像
docker pull vllm/vllm-openai:latest

       模型下载地址: https://hf-mirror.com/Qwen

3、启动容器脚本

# vLLM容器化启动脚本
#! /bin/bash
docker stop my_vllm_container && docker rm my_vllm_container

docker run -d  --runtime nvidia --gpus all \
  --name my_vllm_container \
  --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
  -v /data/vLLM/huggingface/Qwen/Qwen3-4B-Instruct-2507:/models/Qwen3-4B-Instruct-2507 \
  -p 11434:8000 \
  --ipc=host \
  vllm/vllm-openai:latest \
  --model /models/Qwen3-4B-Instruct-2507 \   #指定引用的模型
  --tensor-parallel-size 4 \    #启动4块
  --gpu-memory-utilization 0.15 \   #允许使用GPU的百分比
  --max-model-len 12048    #长度
#  --kv-cache-dtype fp8  #引用此参数会使vLLM版本降低使用

# 查看容器日志
docker logs -f my_vllm_container  

4、# 通过curl调用API接口:

curl -X POST "http://111.202.106.174:11434/v1/chat/completions" \
        -H "Content-Type: application/json" \
        --data '{
                "model": "/models/Qwen3-4B-Instruct-2507",
                "messages": [
                        {
                                "role": "user",
                                "content": "天空为什么是蓝色的?"
                        }
                ]
        }'

 

posted @ 2025-08-12 08:53  天海沙  阅读(1849)  评论(0)    收藏  举报