vllm 参数分类

配置参数说明

微调相关

  • --enable-lora:启用 LoRA 适配器。
  • --enable-lora-bias:启用 LoRA 偏置。
  • --max-loras:单批次最大 LoRA 数量。
  • --max-lora-rank:最大 LoRA 等级。
  • --lora-extra-vocab-size:LoRA 适配器的额外词汇表大小。
  • --lora-dtype:LoRA 的数据类型。
  • --long-lora-scaling-factors:长 LoRA 缩放因子。
  • --max-cpu-loras:存储在 CPU 内存中的最大 LoRA 数量。
  • --fully-sharded-loras:启用完全分片的 LoRA。
  • --qlora-adapter-name-or-path:QLoRA 适配器的名称或路径。

调度相关

  • --scheduling-policy:调度策略。
  • --scheduler-cls:调度器类。
  • --num-scheduler-steps:每次调度调用的最大前向步骤数。
  • --scheduler-delay-factor:调度延迟因子。
  • --disable-async-output-proc:禁用异步输出处理。

预填充相关

  • --enable-chunked-prefill:启用分块预填充。
  • --max-num-batched-tokens:每次迭代的最大批处理 token 数。
  • --max-num-partial-prefills:最大并发部分预填充数。
  • --max-long-partial-prefills:最大长部分预填充数。
  • --long-prefill-token-threshold:长预填充的 token 阈值。

模型加载相关

  • --model:模型名称或路径。
  • --load-format:模型加载格式。
  • --model-loader-extra-config:模型加载器的额外配置。
  • --ignore-patterns:忽略的文件模式。
  • --preemption-mode:抢占模式。
  • --override-neuron-config:覆盖或设置神经设备配置。
  • --override-pooler-config:覆盖或设置池化方法。
  • --download-dir:下载目录。
  • --revision:模型版本。
  • --tokenizer-revision:分词器版本。
  • --trust-remote-code:信任远程代码。

推理相关

推理功能:

  • --enable-reasoning:启用推理内容生成。
  • --reasoning-parser:选择推理解析器。

推理优化:

  • --disable-cascade-attn:禁用级联注意力。
  • --calculate-kv-scales:动态计算 KV 缩放因子。

生成配置:

  • --generation-config:生成配置路径。
  • --override-generation-config:覆盖生成配置。

推测解码:

  • --speculative-config:推测解码配置。
  • --speculative-model:推测解码使用的草稿模型。
  • --speculative-model-quantization:推测模型的量化方法。
  • --num-speculative-tokens:推测解码的 token 数量。
  • --speculative-disable-mqa-scorer:禁用 MQA 评分器。
  • --speculative-draft-tensor-parallel-size:草稿模型的张量并行大小。
  • --speculative-max-model-len:草稿模型的最大序列长度。
  • --speculative-disable-by-batch-size:根据批次大小禁用推测解码。
  • --ngram-prompt-lookup-max:n-gram 提示查找的最大窗口。
  • --ngram-prompt-lookup-min:n-gram 提示查找的最小窗口。
  • --spec-decoding-acceptance-method:推测解码的接受方法。
  • --typical-acceptance-sampler-posterior-threshold:典型接受采样器的后验阈值。
  • --typical-acceptance-sampler-posterior-alpha:典型接受采样器的后验 alpha。
  • --disable-logprobs-during-spec-decoding:禁用推测解码期间的 logprobs。

设备和资源管理相关

设备配置:

  • --device:执行设备类型。
  • --gpu-memory-utilization:GPU 内存利用率。
  • --cpu-offload-gb:CPU 卸载空间(GB)。
  • --num-gpu-blocks-override:覆盖 GPU 块数量。

资源限制:

  • --max-num-seqs:每次迭代的最大序列数。
  • --max-logprobs:返回的最大 logprobs 数量。
  • --disable-log-stats:禁用日志统计。

量化和优化:

  • --quantization:量化方法。
  • --rope-scaling:RoPE 缩放配置。
  • --rope-theta:RoPE theta。
  • --hf-overrides:HuggingFace 配置的额外参数。
  • --enforce-eager:强制使用 eager-mode PyTorch。
  • --max-seq-len-to-capture:CUDA 图覆盖的最大序列长度。
  • --disable-custom-all-reduce:禁用自定义 all-reduce。

分词器配置:

  • --tokenizer-pool-size:分词器池大小。
  • --tokenizer-pool-type:分词器池类型。
  • --tokenizer-pool-extra-config:分词器池的额外配置。

多模态处理:

  • --limit-mm-per-prompt:每个提示的多模态输入限制。
  • --mm-processor-kwargs:多模态输入映射/处理的覆盖参数。
  • --disable-mm-preprocessor-cache:禁用多模态预处理器缓存。

网络和安全相关

  • --host:主机名。
  • --port:端口号。
  • --ssl-keyfile:SSL 密钥文件路径。
  • --ssl-certfile:SSL 证书文件路径。
  • --root-path:FastAPI 的根路径。
  • --allowed-local-media-path:允许的本地媒体路径。
  • --allowed-origins:允许的来源。
  • --allowed-methods:允许的方法。
  • --allowed-headers:允许的头。
  • --api-key:API 密钥。

日志和监控相关

  • --disable-log-requests:禁用请求日志。
  • --disable-log-stats:禁用统计日志。
  • --max-log-len:日志中最大字符数。
  • --otlp-traces-endpoint:OpenTelemetry 跟踪端点。
  • --collect-detailed-traces:收集详细跟踪。
  • --show-hidden-metrics-for-version:显示版本的隐藏指标。

性能和优化相关

  • --block-size:块大小。
  • --pipeline-parallel-size:流水线并行大小。
  • --pooling-norm:池化归一化。
  • --pooling-softmax:池化 softmax。
  • --pooling-type:池化类型。
  • --compilation-config:编译配置。
  • --kv-transfer-config:KV 传输配置。
  • --worker-cls:工作类。
  • --worker-extension-cls:工作扩展类。
  • --generation-config:生成配置。
  • --override-generation-config:覆盖生成配置。
  • --enable-sleep-mode:启用睡眠模式。
  • --calculate-kv-scales:计算 KV 缩放。
  • --additional-config:额外配置。

功能和特性相关

  • --chat-template:聊天模板。
  • --chat-template-text-format:聊天模板文本格式。
  • --guided-decoding-backend:引导解码后端。
  • --middleware:中间件。
  • --multi-step-stream-outputs:多步流输出。
  • --no-pooling-norm:无池化归一化。
  • --no-pooling-softmax:无池化 softmax。
  • --enable-auto-tool-choice:启用自动工具选择。
  • --enable-prefix-caching:启用前缀缓存。
  • --disable-fastapi-docs:禁用 FastAPI 文档。
  • --enable-prompt-tokens-details:启用提示令牌详细信息。
  • --enable-server-load-tracking:启用服务器负载跟踪。
posted @ 2025-04-03 19:19  xiezhengcai  阅读(1328)  评论(0)    收藏  举报