部署qwen14B 实战
目录
启动脚本
#!/usr/bin/env bash
set -e
export CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server \
--model /data/models/Qwen1.5-14B-Chat-AWQ \
--quantization awq \
--max-model-len 4096 \
--gpu-memory-utilization 0.9 \
> /data/logs/qwen_vllm.log 2>&1 &

浙公网安备 33010602011771号