vLLM框架本地布署Qwen3-32B模型

先Conda虚拟环境创建，这里不再讲了，前面讲过。
激活环境
conda activate vllm_numpy_pytorch

下载完整模型库
modelscope download --model Qwen/Qwen3-32B

默认下载到: /home/admin1/.cache/modelscope/hub/models/

将vLLM服务启动命令修改为提供标准 OpenAI API 接口的形式

python3 -m vllm.entrypoints.openai.api_server \
--model /home/admin1/.cache/modelscope/hub/models/Qwen/Qwen3-32B \
--port 8018 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.7 \
--swap-space 16 \
--served-model-name Qwen3-32B \
--host 0.0.0.0 \
--trust-remote-code \
--max-model-len 8192

测试调用

curl -X POST "http://localhost:8018/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3-32B",
"messages": [{"role": "user", "content": "介绍下杭州"}]
}'

903a4b5ac47eec17965f74d5ac1c26f3

posted on 2025-09-10 17:59 yi-sheng 阅读(156) 评论(0) 收藏举报