摘要:
--max-model-len 16384 :设置模型能处理的最大上下文长度(输入 + 输出)token数量,典型值:8192, 16384, 32768, 131072--max-num-batched-tokens 8192 :一次批处理(batch)中,最多允许的总 token 数量(包括所有 阅读全文
posted @ 2025-09-19 15:42
momingliu11
阅读(148)
评论(0)
推荐(0)
浙公网安备 33010602011771号