使用指定的显卡运行模型

指定使用第0块显卡启动qianwen3-8b模型，运行如下命令：

CUDA_VISIBLE_DEVICES=1 /usr/local/python310/bin/python3 /usr/local/python310/bin/vllm serve /data/llm/qianwen3/8b --max-model-len 16384 --port 81 --api-key 1234 --dtype=half --disable-log-requests --disable-log-stats

指定使用第1和第3块显卡启动qianwen3-8b模型，运行如下命令：

CUDA_VISIBLE_DEVICES=1,3 /usr/local/python310/bin/python3 /usr/local/python310/bin/vllm serve /data/llm/qianwen3/8b --max-model-len 16384 --port 82 --api-key 92322 --dtype=half --disable-log-requests --disable-log-stats

通过脚本方式启动，脚本内容如下：

#use gpu-1
export CUDA_VISIBLE_DEVICES=1
/usr/local/python310/bin/vllm serve /data/llm/baai/bgelargezh/15b  --trust-remote-code  --port 83  > /data/log/vllm_baai-beglargezh.log 2>&1 &

posted on 2025-11-18 09:34 momingliu11 阅读(44) 评论(0) 收藏举报