vllm 参数分类

配置参数说明

微调相关

--enable-lora：启用 LoRA 适配器。
--enable-lora-bias：启用 LoRA 偏置。
--max-loras：单批次最大 LoRA 数量。
--max-lora-rank：最大 LoRA 等级。
--lora-extra-vocab-size：LoRA 适配器的额外词汇表大小。
--lora-dtype：LoRA 的数据类型。
--long-lora-scaling-factors：长 LoRA 缩放因子。
--max-cpu-loras：存储在 CPU 内存中的最大 LoRA 数量。
--fully-sharded-loras：启用完全分片的 LoRA。
--qlora-adapter-name-or-path：QLoRA 适配器的名称或路径。

调度相关

--scheduling-policy：调度策略。
--scheduler-cls：调度器类。
--num-scheduler-steps：每次调度调用的最大前向步骤数。
--scheduler-delay-factor：调度延迟因子。
--disable-async-output-proc：禁用异步输出处理。

预填充相关

--enable-chunked-prefill：启用分块预填充。
--max-num-batched-tokens：每次迭代的最大批处理 token 数。
--max-num-partial-prefills：最大并发部分预填充数。
--max-long-partial-prefills：最大长部分预填充数。
--long-prefill-token-threshold：长预填充的 token 阈值。

模型加载相关

--model：模型名称或路径。
--load-format：模型加载格式。
--model-loader-extra-config：模型加载器的额外配置。
--ignore-patterns：忽略的文件模式。
--preemption-mode：抢占模式。
--override-neuron-config：覆盖或设置神经设备配置。
--override-pooler-config：覆盖或设置池化方法。
--download-dir：下载目录。
--revision：模型版本。
--tokenizer-revision：分词器版本。
--trust-remote-code：信任远程代码。

推理相关

推理功能：

--enable-reasoning：启用推理内容生成。
--reasoning-parser：选择推理解析器。

推理优化：

--disable-cascade-attn：禁用级联注意力。
--calculate-kv-scales：动态计算 KV 缩放因子。

生成配置：

--generation-config：生成配置路径。
--override-generation-config：覆盖生成配置。

推测解码：

--speculative-config：推测解码配置。
--speculative-model：推测解码使用的草稿模型。
--speculative-model-quantization：推测模型的量化方法。
--num-speculative-tokens：推测解码的 token 数量。
--speculative-disable-mqa-scorer：禁用 MQA 评分器。
--speculative-draft-tensor-parallel-size：草稿模型的张量并行大小。
--speculative-max-model-len：草稿模型的最大序列长度。
--speculative-disable-by-batch-size：根据批次大小禁用推测解码。
--ngram-prompt-lookup-max：n-gram 提示查找的最大窗口。
--ngram-prompt-lookup-min：n-gram 提示查找的最小窗口。
--spec-decoding-acceptance-method：推测解码的接受方法。
--typical-acceptance-sampler-posterior-threshold：典型接受采样器的后验阈值。
--typical-acceptance-sampler-posterior-alpha：典型接受采样器的后验 alpha。
--disable-logprobs-during-spec-decoding：禁用推测解码期间的 logprobs。

设备和资源管理相关

设备配置：

--device：执行设备类型。
--gpu-memory-utilization：GPU 内存利用率。
--cpu-offload-gb：CPU 卸载空间（GB）。
--num-gpu-blocks-override：覆盖 GPU 块数量。

资源限制：

--max-num-seqs：每次迭代的最大序列数。
--max-logprobs：返回的最大 logprobs 数量。
--disable-log-stats：禁用日志统计。

量化和优化：

--quantization：量化方法。
--rope-scaling：RoPE 缩放配置。
--rope-theta：RoPE theta。
--hf-overrides：HuggingFace 配置的额外参数。
--enforce-eager：强制使用 eager-mode PyTorch。
--max-seq-len-to-capture：CUDA 图覆盖的最大序列长度。
--disable-custom-all-reduce：禁用自定义 all-reduce。

分词器配置：

--tokenizer-pool-size：分词器池大小。
--tokenizer-pool-type：分词器池类型。
--tokenizer-pool-extra-config：分词器池的额外配置。

多模态处理：

--limit-mm-per-prompt：每个提示的多模态输入限制。
--mm-processor-kwargs：多模态输入映射/处理的覆盖参数。
--disable-mm-preprocessor-cache：禁用多模态预处理器缓存。

网络和安全相关

--host：主机名。
--port：端口号。
--ssl-keyfile：SSL 密钥文件路径。
--ssl-certfile：SSL 证书文件路径。
--root-path：FastAPI 的根路径。
--allowed-local-media-path：允许的本地媒体路径。
--allowed-origins：允许的来源。
--allowed-methods：允许的方法。
--allowed-headers：允许的头。
--api-key：API 密钥。

日志和监控相关

--disable-log-requests：禁用请求日志。
--disable-log-stats：禁用统计日志。
--max-log-len：日志中最大字符数。
--otlp-traces-endpoint：OpenTelemetry 跟踪端点。
--collect-detailed-traces：收集详细跟踪。
--show-hidden-metrics-for-version：显示版本的隐藏指标。

性能和优化相关

--block-size：块大小。
--pipeline-parallel-size：流水线并行大小。
--pooling-norm：池化归一化。
--pooling-softmax：池化 softmax。
--pooling-type：池化类型。
--compilation-config：编译配置。
--kv-transfer-config：KV 传输配置。
--worker-cls：工作类。
--worker-extension-cls：工作扩展类。
--generation-config：生成配置。
--override-generation-config：覆盖生成配置。
--enable-sleep-mode：启用睡眠模式。
--calculate-kv-scales：计算 KV 缩放。
--additional-config：额外配置。

功能和特性相关

--chat-template：聊天模板。
--chat-template-text-format：聊天模板文本格式。
--guided-decoding-backend：引导解码后端。
--middleware：中间件。
--multi-step-stream-outputs：多步流输出。
--no-pooling-norm：无池化归一化。
--no-pooling-softmax：无池化 softmax。
--enable-auto-tool-choice：启用自动工具选择。
--enable-prefix-caching：启用前缀缓存。
--disable-fastapi-docs：禁用 FastAPI 文档。
--enable-prompt-tokens-details：启用提示令牌详细信息。
--enable-server-load-tracking：启用服务器负载跟踪。

posted @ 2025-04-03 19:19 xiezhengcai 阅读(1464) 评论(0) 收藏举报

刷新页面返回顶部

無名

大猫咪与小狮子

vllm 参数分类

配置参数说明

微调相关

调度相关

预填充相关

模型加载相关

推理相关

推理功能：

推理优化：

生成配置：

推测解码：

设备和资源管理相关

设备配置：

资源限制：

量化和优化：

分词器配置：

多模态处理：

网络和安全相关

日志和监控相关

性能和优化相关

功能和特性相关

公告