vllm 参数分类
配置参数说明
微调相关
--enable-lora:启用 LoRA 适配器。--enable-lora-bias:启用 LoRA 偏置。--max-loras:单批次最大 LoRA 数量。--max-lora-rank:最大 LoRA 等级。--lora-extra-vocab-size:LoRA 适配器的额外词汇表大小。--lora-dtype:LoRA 的数据类型。--long-lora-scaling-factors:长 LoRA 缩放因子。--max-cpu-loras:存储在 CPU 内存中的最大 LoRA 数量。--fully-sharded-loras:启用完全分片的 LoRA。--qlora-adapter-name-or-path:QLoRA 适配器的名称或路径。
调度相关
--scheduling-policy:调度策略。--scheduler-cls:调度器类。--num-scheduler-steps:每次调度调用的最大前向步骤数。--scheduler-delay-factor:调度延迟因子。--disable-async-output-proc:禁用异步输出处理。
预填充相关
--enable-chunked-prefill:启用分块预填充。--max-num-batched-tokens:每次迭代的最大批处理 token 数。--max-num-partial-prefills:最大并发部分预填充数。--max-long-partial-prefills:最大长部分预填充数。--long-prefill-token-threshold:长预填充的 token 阈值。
模型加载相关
--model:模型名称或路径。--load-format:模型加载格式。--model-loader-extra-config:模型加载器的额外配置。--ignore-patterns:忽略的文件模式。--preemption-mode:抢占模式。--override-neuron-config:覆盖或设置神经设备配置。--override-pooler-config:覆盖或设置池化方法。--download-dir:下载目录。--revision:模型版本。--tokenizer-revision:分词器版本。--trust-remote-code:信任远程代码。
推理相关
推理功能:
--enable-reasoning:启用推理内容生成。--reasoning-parser:选择推理解析器。
推理优化:
--disable-cascade-attn:禁用级联注意力。--calculate-kv-scales:动态计算 KV 缩放因子。
生成配置:
--generation-config:生成配置路径。--override-generation-config:覆盖生成配置。
推测解码:
--speculative-config:推测解码配置。--speculative-model:推测解码使用的草稿模型。--speculative-model-quantization:推测模型的量化方法。--num-speculative-tokens:推测解码的 token 数量。--speculative-disable-mqa-scorer:禁用 MQA 评分器。--speculative-draft-tensor-parallel-size:草稿模型的张量并行大小。--speculative-max-model-len:草稿模型的最大序列长度。--speculative-disable-by-batch-size:根据批次大小禁用推测解码。--ngram-prompt-lookup-max:n-gram 提示查找的最大窗口。--ngram-prompt-lookup-min:n-gram 提示查找的最小窗口。--spec-decoding-acceptance-method:推测解码的接受方法。--typical-acceptance-sampler-posterior-threshold:典型接受采样器的后验阈值。--typical-acceptance-sampler-posterior-alpha:典型接受采样器的后验 alpha。--disable-logprobs-during-spec-decoding:禁用推测解码期间的 logprobs。
设备和资源管理相关
设备配置:
--device:执行设备类型。--gpu-memory-utilization:GPU 内存利用率。--cpu-offload-gb:CPU 卸载空间(GB)。--num-gpu-blocks-override:覆盖 GPU 块数量。
资源限制:
--max-num-seqs:每次迭代的最大序列数。--max-logprobs:返回的最大 logprobs 数量。--disable-log-stats:禁用日志统计。
量化和优化:
--quantization:量化方法。--rope-scaling:RoPE 缩放配置。--rope-theta:RoPE theta。--hf-overrides:HuggingFace 配置的额外参数。--enforce-eager:强制使用 eager-mode PyTorch。--max-seq-len-to-capture:CUDA 图覆盖的最大序列长度。--disable-custom-all-reduce:禁用自定义 all-reduce。
分词器配置:
--tokenizer-pool-size:分词器池大小。--tokenizer-pool-type:分词器池类型。--tokenizer-pool-extra-config:分词器池的额外配置。
多模态处理:
--limit-mm-per-prompt:每个提示的多模态输入限制。--mm-processor-kwargs:多模态输入映射/处理的覆盖参数。--disable-mm-preprocessor-cache:禁用多模态预处理器缓存。
网络和安全相关
--host:主机名。--port:端口号。--ssl-keyfile:SSL 密钥文件路径。--ssl-certfile:SSL 证书文件路径。--root-path:FastAPI 的根路径。--allowed-local-media-path:允许的本地媒体路径。--allowed-origins:允许的来源。--allowed-methods:允许的方法。--allowed-headers:允许的头。--api-key:API 密钥。
日志和监控相关
--disable-log-requests:禁用请求日志。--disable-log-stats:禁用统计日志。--max-log-len:日志中最大字符数。--otlp-traces-endpoint:OpenTelemetry 跟踪端点。--collect-detailed-traces:收集详细跟踪。--show-hidden-metrics-for-version:显示版本的隐藏指标。
性能和优化相关
--block-size:块大小。--pipeline-parallel-size:流水线并行大小。--pooling-norm:池化归一化。--pooling-softmax:池化 softmax。--pooling-type:池化类型。--compilation-config:编译配置。--kv-transfer-config:KV 传输配置。--worker-cls:工作类。--worker-extension-cls:工作扩展类。--generation-config:生成配置。--override-generation-config:覆盖生成配置。--enable-sleep-mode:启用睡眠模式。--calculate-kv-scales:计算 KV 缩放。--additional-config:额外配置。
功能和特性相关
--chat-template:聊天模板。--chat-template-text-format:聊天模板文本格式。--guided-decoding-backend:引导解码后端。--middleware:中间件。--multi-step-stream-outputs:多步流输出。--no-pooling-norm:无池化归一化。--no-pooling-softmax:无池化 softmax。--enable-auto-tool-choice:启用自动工具选择。--enable-prefix-caching:启用前缀缓存。--disable-fastapi-docs:禁用 FastAPI 文档。--enable-prompt-tokens-details:启用提示令牌详细信息。--enable-server-load-tracking:启用服务器负载跟踪。
知识是我们已知的
也是我们未知的
基于已有的知识之上
我们去发现未知的
由此,知识得到扩充
我们获得的知识越多
未知的知识就会更多
因而,知识扩充永无止境

浙公网安备 33010602011771号