AI：部署模型

工具

vllm

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 -–max-model-len 32768 -–enforce-eager

vllm serve：启动vllm推荐服务的命令

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B：HuggingFace模型库中的名称，vllm会深度从HuggingFace下载模型

--tensor-parallel-size 2：启用张量并行，在2个GPU上分布式支行模型

--max-model-len 32768：设置模型的最大上下文长度（32k tokens）

--enforce-eager：禁用CUDA Graph优化

从modelscope下载

from modelscope import snapshot_download
snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B',cache_dir='/root/autodl-tmp/models')

推荐Ubuntu

框架

PyTorch

算力云

AutoDL

posted @ 2026-01-13 14:52 chenjingchun 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部