摘要: 很多团队把它vLLM 当 demo 跑,但是其实这没把它系统能力发挥出来。这篇文章将介绍怎么让 vLLM 真正干活——持续输出高令牌/秒,哪些参数真正有用,以及怎么在延迟和成本之间做取舍。 https://avoid.overfit.cn/post/89022caa9a4346b290c212c0c 阅读全文
posted @ 2025-10-24 13:51 deephub 阅读(2) 评论(0) 推荐(0)