摘要: 原文链接 背景 vllm中的流水线调度策略 在当前的vllm调度中,对于pipeline并行的实现还不完善,存在大量气泡,当前在vllm中的流水线并行调度如下。 以4卡的流水线并行推理为例,在vllm中,会启动4个worker,然后维护一个大小为4的batch_queue队列。当batch_queu 阅读全文
posted @ 2025-09-24 17:47 wxyww 阅读(44) 评论(2) 推荐(1)