2025年12月7日
摘要: 本文已于 2025.09.21 发表于知乎和公众号。 1. 简介 在前序笔记中总结了SGLang 的各种分布式集群模式,本文将进一步总结 TP 模式。TP 模式将模型中的权重张量按行或者列拆分到单机或者多机的多个 GPU 中,每个 GPU 处理部分计算。本文对 SGLang 实现的 TP 模式做简单 阅读全文
posted @ 2025-12-07 23:43 -银光- 阅读(21) 评论(0) 推荐(0)
摘要: 本文已于2025.09.14 发表于知乎和公众号。 计算加速是推理系统优化的终极目标,并行计算是实现该目标的核心手段,而分布式集群则是支撑并行计算落地的底层基础设施。本文概括性的介绍 SGLang 支持的多种分布式集群。 1. 六种分布式集群 SGLang 有多种分布式集群计算加速手段,可以分为三种 阅读全文
posted @ 2025-12-07 23:31 -银光- 阅读(27) 评论(0) 推荐(0)