vLLM常用参数解释

--max-model-len 16384 ：设置模型能处理的最大上下文长度（输入 + 输出）token数量，典型值：8192, 16384, 32768, 131072
--max-num-batched-tokens 8192 ：一次批处理（batch）中，最多允许的总 token 数量（包括所有请求的 prompt + 已生成的 token）
--max-num-seqs 64：一个 batch 中最多同时处理的请求数量（即并发序列数），即使总 token 数远低于 8192，也不能超过 64 个请求同时处理

--quantization awq：指定量化方式

--dtype=auto：自动选择精度

--trust-remote-code

--distributed-executor-backend=ray ：通过ray群集运行

--pipeline-parallel-size 2 ：指定节点群集数量

--tensor-parallel-size 2：指定每个节点所使用的显卡数量

--gpu-memory-utilization 0.9：限制每个显卡使用量

● max_tokens = 生成的 response 的最大长度。

● prompt tokens 是输入的长度。

● prompt tokens + max_tokens 必须 ≤ 模型的最大上下文长度（max-model-len ）

说明：在 Dify 或大多数 LLM 调用框架中，max_tokens 通常指的是模型生成输出（response）的最大 token 数量。它不包含你的输入 prompt 的 token 数量。也就是说，prompt 的长度是独立计算的。

每个模型都有一个最大上下文长度（max context length），这是模型能够处理的总 token 数量上限（对于 Qwen3-32B，这个上限是 131072 个 token）

如果你的输入 prompt 的 token 数量 + max_tokens（输出长度） > 模型的最大上下文长度，那么系统通常会拒绝请求，并返回一个错误，提示“上下文长度超出限制”或类似的提示。

posted on 2025-09-19 15:43 momingliu11 阅读(183) 评论(0) 收藏举报