使用vLLM部署Qwen/Qwen3.5-35B-A3B-FP8并且在DIFY中调用

硬件配置

三块4090的显卡,CUDA版本为12.8,需要注意vllm需要在CUDA12.4-9的版本下运行,下面的命令要根据当前的CUDA版本来

image

模型部署

创建环境

这里使用conda创建一个新的python 虚拟环境(重要!!!一定是新的虚拟环境,python版本选择3.12)

# 创建虚拟环境
conda create -n vllm-qwen python=3.12 -y
# 激活环境
conda activate vllm-qwen

安装基础依赖

# 安装包管理工具
pip install uv
# 安装模型下载工具
uv pip install modelscope

安装vllm

# 先安装PyTorch(使用国内镜像),需要注意的是cu128对应cuda12.8的版本,如果是12.0则是cu129!!!!!!此处造成了我爬坑了半天!!!!!!
uv pip install torch -i https://mirrors.aliyun.com/pypi/simple/ --extra-index-url https://mirrors.aliyun.com/torch-cu128/
# 再安装vllm(不指定PyTorch索引)
uv pip install -U vllm --prerelease=allow \
  -i https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/nightly \
  --extra-index-url https://mirrors.aliyun.com/torch-cu128/ \
  --trusted-host mirrors.aliyun.com
# 验证vllm是否安装成功
pip show vllm

启动模型

此处注意--tensor-parallel-size的值需要被模型的内部维度(8192)整除,所以我有3块卡但也设置为2

# 充分利用算力
vllm serve $HOME/.cache/modelscope/hub/models/Qwen/Qwen3.5-35B-A3B-FP8     --port 8002     --tensor-parallel-size 2     --dtype auto     --max-model-len 32768     --max-num-seqs 1     --block-size 128     --served-model-name Qwen3.5-35B     --gpu-memory-utilization 0.9
# 最求性能,把max-model-len、block-size降低了
vllm serve $HOME/.cache/modelscope/hub/models/Qwen/Qwen3.5-35B-A3B-FP8 \
    --port 8002 \
    --tensor-parallel-size 2 \
    --dtype auto \
    --max-model-len 16384 \
    --max-num-seqs 1 \
    --block-size 16 \
    --served-model-name Qwen3.5-35B \
    --gpu-memory-utilization 0.8

企业微信截图_1772798280451

 显示上述内容表示启动成功

DIFY配置

 

image

 

posted @ 2026-03-06 21:24  骨月枫🍁  阅读(219)  评论(0)    收藏  举报