什么时候用Ray架构，什么时候不需要

在微服务架构里，Ray 相当于 “请求路由组件 + 注册中心 + 负载均衡器”，而每个 Actor 就像独立微服务实例，接收请求、处理逻辑、维护状态。这样整个异构 LLM 集群就像一个微服务生态，动态调度和弹性扩展天然支持异构硬件。

vllm单机多卡（无Ray）部署架构
https://www.cnblogs.com/aibi1/p/19525597

vllm单机多卡（Ray）部署架构
https://www.cnblogs.com/aibi1/p/19525664

方案：AI 网关 + 多个模型服务进程
逻辑：
- 每个模型服务实例绑定固定 GPU（比如 2 张 GPU/实例）
- 网关负责请求分发到不同端口/服务实例
- KV Cache / batch 管理在每个模型服务内部独立处理
优点：
- 简单，几乎不需要学习 Ray 或分布式调度
- 管理和调试成本低
缺点：
- 扩展性受限
- 异构 GPU / NPU 混合使用时手动管理复杂
- GPU 利用率可能不够弹性

对 10–20 张 GPU，自己维护多个模型服务进程已经可以充分利用算力，Ray 并不是必须的。

问题：
- 手动管理服务实例变得复杂
- GPU 状态实时监控、负载均衡困难
- 异构 GPU / NPU 调度复杂
- KV Cache 或 batch 对齐更难
解决方案：引入 Ray + Actor 架构
- 动态调度请求到可用 GPU / Actor
- 自动管理异构节点
- 统一 Service 层逻辑，保证 KV Cache、batch、TP/PP 协作
- 弹性扩展，支持大规模并发请求

简单理解：小规模 → 手动服务实例即可；中大型 → 需要 Ray 做动态调度和资源管理。

“在 10–20 张 GPU 的小规模集群中，可以通过 AI 网关 + 多个模型服务进程管理请求和 GPU，不必引入 Ray。随着 GPU 数量和请求量增加，手动管理的复杂度和调度成本会上升，此时 Ray 可以提供动态调度、负载均衡和异构硬件支持，显著降低运维复杂度并提高资源利用率。”

如果你愿意，我可以帮你画一张 “小规模 vs 大规模 GPU 集群部署对比示意图”，用网关+模型服务和 Ray+Actor 对比，非常直观。

你希望我画吗？

posted @ 2026-01-24 11:34 向着朝阳阅读(6) 评论(0) 收藏举报

刷新页面返回顶部