私有化部署千问3-8B

1、算力云租用一张4090显卡

算力云地址:https://autodl.com/console/instance/list?

tag_id=&_random_=1760162242450

2、在魔塔社区找到千问大模型下载地址,拷贝下载方式,使用sdk下载

https://www.modelscope.cn/models/Qwen/Qwen3-8B

4090显卡只支持8B大模型

3、打开算力云,创建download.py文件

#模型下载

from modelscope import snapshot_download

model_dir = snapshot_download('Qwen/Qwen3-8B', cache_dir='/root/autodl-tmp/models', revision='master')

4、pip install modelscope 后运行python ~/autodl-tmp/code/download.py

5、pip install vllm,使用vllm部署,vllm支持高并发,ollama有风险

6、python -m vllm.entrypoints.openai.api_server \
--model /root/autodl-tmp/models/Qwen/Qwen3-8B \
--served-model-name qwen3-8b \
--max-model-len 8k \
--host 0.0.0.0 \
--port 6006 \
--dtype bfloat16 \
--gpu-memory-utilization 0.8 \
--enable-auto-tool-choice \
--tool-call-parser hermes

使用命令启动大模型

 

posted @ 2026-01-23 10:18  showMeTheCodes  阅读(8)  评论(0)    收藏  举报