私有化部署千问3-8B

1、算力云租用一张4090显卡

算力云地址：https://autodl.com/console/instance/list?

tag_id=&_random_=1760162242450

2、在魔塔社区找到千问大模型下载地址，拷贝下载方式，使用sdk下载

https://www.modelscope.cn/models/Qwen/Qwen3-8B

4090显卡只支持8B大模型

3、打开算力云，创建download.py文件

#模型下载

from modelscope import snapshot_download

model_dir = snapshot_download('Qwen/Qwen3-8B', cache_dir='/root/autodl-tmp/models', revision='master')

4、pip install modelscope 后运行python ~/autodl-tmp/code/download.py

5、pip install vllm，使用vllm部署，vllm支持高并发，ollama有风险

6、python -m vllm.entrypoints.openai.api_server \
--model /root/autodl-tmp/models/Qwen/Qwen3-8B \
--served-model-name qwen3-8b \
--max-model-len 8k \
--host 0.0.0.0 \
--port 6006 \
--dtype bfloat16 \
--gpu-memory-utilization 0.8 \
--enable-auto-tool-choice \
--tool-call-parser hermes

使用命令启动大模型

posted @ 2026-01-23 10:18 showMeTheCodes 阅读(154) 评论(0) 收藏举报

刷新页面返回顶部

showMeTheCodes

这里是一个很好的整理技术思绪的乐土，每整理一点你的功力就会增加一分，修炼永无止境，整理一直随行。

私有化部署千问3-8B

公告