使用指定的显卡运行模型

指定使用第0块显卡启动qianwen3-8b模型,运行如下命令:

CUDA_VISIBLE_DEVICES=1 /usr/local/python310/bin/python3 /usr/local/python310/bin/vllm serve /data/llm/qianwen3/8b --max-model-len 16384 --port 81 --api-key 1234 --dtype=half --disable-log-requests --disable-log-stats

指定使用第1和第3块显卡启动qianwen3-8b模型,运行如下命令:

CUDA_VISIBLE_DEVICES=1,3 /usr/local/python310/bin/python3 /usr/local/python310/bin/vllm serve /data/llm/qianwen3/8b --max-model-len 16384 --port 82 --api-key 92322 --dtype=half --disable-log-requests --disable-log-stats

通过脚本方式启动,脚本内容如下:

#use gpu-1
export CUDA_VISIBLE_DEVICES=1
/usr/local/python310/bin/vllm serve /data/llm/baai/bgelargezh/15b  --trust-remote-code  --port 83  > /data/log/vllm_baai-beglargezh.log 2>&1 &

 

posted on 2025-11-18 09:34  momingliu11  阅读(44)  评论(0)    收藏  举报