vllm 多机多卡部署大模型 (Ray + vLLM )

Ray 和 vLLM 介绍

如果需要把一个大模型用多卡 / 多机跑起来,追求推理性能:直接用 vLLM 自身的 MPI 多机部署。

如果需要管理多个模型服务、动态扩缩容、统一调度多机资源、构建复杂分布式推理系统:需要用 Ray 封装 vLLM,借助 Ray 的分布式能力提升系统的灵活性和可扩展性。

Ray和vLLM :两者不是竞争关系,而是互补关系,解决大模型部署中的不同问题。

工具核心定位核心能力解决的问题
vLLM 高性能大模型推理引擎 1. 基于 PagedAttention 实现超高吞吐量
 
2. 支持张量并行、流水线并行
 
3. 提供简单的 API 服务封装
解决「单模型 / 多卡推理的性能瓶颈」,让单模型在显卡上跑得更快、更省显存
Ray 分布式计算框架(分布式应用平台) 1. 跨机资源管理(CPU/GPU/ 内存)
 
2. 分布式任务调度与执行
 
3. 容错、弹性扩缩容
 
4. 支持构建分布式服务
解决「多模型、多服务、跨机资源调度」的问题,是分布式应用的「基座」

 

Ray + vLLM 协同优势

  1. 更灵活的资源管理:Ray 可以精细调度每台机器的 GPU/CPU 资源,避免 vLLM 直接部署时的资源浪费,支持按需分配显卡给不同模型。
  2. 弹性扩缩容:可以根据请求量动态增加 / 减少 vLLM 推理实例,应对流量波动。
  3. 多模型管理:轻松部署和管理多个不同的 vLLM 模型服务,统一入口调度。
  4. 更好的容错性:Ray 会监控工作节点状态,节点故障时自动重启任务,比 vLLM 原生 MPI 部署的容错能力更强。
  5. 简化分布式部署:无需手动配置 MPI 免密、hostfile,Ray 自带跨机通信和节点管理,降低多机部署门槛。
 

 

 

posted @ 2026-01-30 17:55  wangssd  阅读(0)  评论(0)    收藏  举报