vLLM常用参数解释
摘要:--max-model-len 16384 :设置模型能处理的最大上下文长度(输入 + 输出)token数量,典型值:8192, 16384, 32768, 131072--max-num-batched-tokens 8192 :一次批处理(batch)中,最多允许的总 token 数量(包括所有
阅读全文
posted @
2025-09-19 15:42
momingliu11
阅读(128)
推荐(0)
PVE跨集群迁移虚机
摘要:1、关机,然后在Web管理界面进行备份2、将备份文件拷贝到目标宿主服务器 scp /mnt/pve/dir-133/dump/vzdump-qemu-375-2025_09_10-13_36_56.vma.zst root@10.10.21.212:/mnt/pve/dir-21-212/dump/
阅读全文
posted @
2025-09-10 15:23
momingliu11
阅读(15)
推荐(0)