2025 年 9月 19 日随笔档案 - momingliu11

2025年9月19日

摘要： --max-model-len 16384 ：设置模型能处理的最大上下文长度（输入 + 输出）token数量，典型值：8192, 16384, 32768, 131072--max-num-batched-tokens 8192 ：一次批处理（batch）中，最多允许的总 token 数量（包括所有阅读全文

posted @ 2025-09-19 15:42 momingliu11 阅读(148) 评论(0) 推荐(0)