使用vLLM部署Qwen/Qwen3.5-35B-A3B-FP8并且在DIFY中调用

硬件配置

三块4090的显卡，CUDA版本为12.8，需要注意vllm需要在CUDA12.4-9的版本下运行，下面的命令要根据当前的CUDA版本来

模型部署

创建环境

这里使用conda创建一个新的python 虚拟环境（重要！！！一定是新的虚拟环境，python版本选择3.12）

# 创建虚拟环境
conda create -n vllm-qwen python=3.12 -y
# 激活环境
conda activate vllm-qwen

安装基础依赖

# 安装包管理工具
pip install uv
# 安装模型下载工具
uv pip install modelscope

安装vllm

# 先安装PyTorch（使用国内镜像）,需要注意的是cu128对应cuda12.8的版本，如果是12.0则是cu129！！！！！！此处造成了我爬坑了半天！！！！！！
uv pip install torch -i https://mirrors.aliyun.com/pypi/simple/ --extra-index-url https://mirrors.aliyun.com/torch-cu128/
# 再安装vllm（不指定PyTorch索引）
uv pip install -U vllm --prerelease=allow \
  -i https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/nightly \
  --extra-index-url https://mirrors.aliyun.com/torch-cu128/ \
  --trusted-host mirrors.aliyun.com
# 验证vllm是否安装成功
pip show vllm

启动模型

此处注意--tensor-parallel-size的值需要被模型的内部维度（8192）整除，所以我有3块卡但也设置为2

# 充分利用算力
vllm serve $HOME/.cache/modelscope/hub/models/Qwen/Qwen3.5-35B-A3B-FP8     --port 8002     --tensor-parallel-size 2     --dtype auto     --max-model-len 32768     --max-num-seqs 1     --block-size 128     --served-model-name Qwen3.5-35B     --gpu-memory-utilization 0.9
# 最求性能，把max-model-len、block-size降低了
vllm serve $HOME/.cache/modelscope/hub/models/Qwen/Qwen3.5-35B-A3B-FP8 \
    --port 8002 \
    --tensor-parallel-size 2 \
    --dtype auto \
    --max-model-len 16384 \
    --max-num-seqs 1 \
    --block-size 16 \
    --served-model-name Qwen3.5-35B \
    --gpu-memory-utilization 0.8

企业微信截图_1772798280451

显示上述内容表示启动成功

DIFY配置

posted @ 2026-03-06 21:24 骨月枫🍁 阅读(219) 评论(0) 收藏举报

刷新页面返回顶部

骨月枫🍁

能力配不上野心，所以迷茫~为了笔直的向前走，努力学习!!!