会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wxyww
博客园
首页
新随笔
管理
2025年9月24日
读论文:基于节流的流水线并行推理优化——gLLM
摘要: 原文链接 背景 vllm中的流水线调度策略 在当前的vllm调度中,对于pipeline并行的实现还不完善,存在大量气泡,当前在vllm中的流水线并行调度如下。 以4卡的流水线并行推理为例,在vllm中,会启动4个worker,然后维护一个大小为4的batch_queue队列。当batch_queu
阅读全文
posted @ 2025-09-24 17:47 wxyww
阅读(44)
评论(2)
推荐(1)
公告