vLLM 性能优化实战:批处理、量化与缓存配置方案
很多团队把它vLLM 当 demo 跑,但是其实这没把它系统能力发挥出来。这篇文章将介绍怎么让 vLLM 真正干活——持续输出高令牌/秒,哪些参数真正有用,以及怎么在延迟和成本之间做取舍。
https://avoid.overfit.cn/post/89022caa9a4346b290c212c0c9bbaa57
很多团队把它vLLM 当 demo 跑,但是其实这没把它系统能力发挥出来。这篇文章将介绍怎么让 vLLM 真正干活——持续输出高令牌/秒,哪些参数真正有用,以及怎么在延迟和成本之间做取舍。
https://avoid.overfit.cn/post/89022caa9a4346b290c212c0c9bbaa57