vLLM常用参数解释
--max-model-len 16384 :设置模型能处理的最大上下文长度(输入 + 输出)token数量,典型值:8192, 16384, 32768, 131072
--max-num-batched-tokens 8192 :一次批处理(batch)中,最多允许的总 token 数量(包括所有请求的 prompt + 已生成的 token)
--max-num-seqs 64:一个 batch 中最多同时处理的请求数量(即并发序列数),即使总 token 数远低于 8192,也不能超过 64 个请求同时处理
--quantization awq:指定量化方式
--dtype=auto:自动选择精度
--trust-remote-code
--distributed-executor-backend=ray :通过ray群集运行
--pipeline-parallel-size 2 :指定节点群集数量
--tensor-parallel-size 2:指定每个节点所使用的显卡数量
--gpu-memory-utilization 0.9:限制每个显卡使用量
● max_tokens = 生成的 response 的最大长度。
● prompt tokens 是输入的长度。
● prompt tokens + max_tokens 必须 ≤ 模型的最大上下文长度(max-model-len )
说明:在 Dify 或大多数 LLM 调用框架中,max_tokens 通常指的是 模型生成输出(response)的最大 token 数量。它不包含 你的输入 prompt 的 token 数量。也就是说,prompt 的长度是独立计算的。
每个模型都有一个 最大上下文长度(max context length),这是模型能够处理的总 token 数量上限(对于 Qwen3-32B,这个上限是 131072 个 token)
如果你的输入 prompt 的 token 数量 + max_tokens(输出长度) > 模型的最大上下文长度,那么系统通常会 拒绝请求,并返回一个错误,提示“上下文长度超出限制”或类似的提示。
浙公网安备 33010602011771号