2025年9月19日
摘要: --max-model-len 16384 :设置模型能处理的最大上下文长度(输入 + 输出)token数量,典型值:8192, 16384, 32768, 131072--max-num-batched-tokens 8192 :一次批处理(batch)中,最多允许的总 token 数量(包括所有 阅读全文
posted @ 2025-09-19 15:42 momingliu11 阅读(148) 评论(0) 推荐(0)