2026年5月6日
摘要: 从 305 GB 到 7.4 GB:大模型 KVCache 架构演进全景 本文已于 2026.05.06 发表于公众号和知乎。 五一本打算更新一年前写的开源引擎 KVCache 实现文档,但梳理下来发现,光是 KVCache 演进的理论部分就已足够撑起一篇独立文章。在 Agent 改变搜索习惯、重塑软件行业的今天,多轮交互带来的长上下文让 KVCache 持续膨胀,显存瓶 阅读全文
posted @ 2026-05-06 17:46 -银光- 阅读(99) 评论(0) 推荐(4)
  2026年4月27日
摘要: 本文已于 2026.04.26 发表于公众号和知乎。 目录 1. Beam Search 是什么 2. 性能评测 3. Beam Search 工程的核心挑战 4. vLLM 的 Beam Search 实现方案 5. Transformers 的 Beam Search 实现方案简介 6. Ten 阅读全文
posted @ 2026-04-27 00:22 -银光- 阅读(111) 评论(2) 推荐(1)
  2026年4月18日
摘要: 本文已于 2026.04.18 发表于公众号和知乎 本文是《深度学习进阶:自然语言处理》的阅读总结,同时结合最近几年的技术发展,补充一些本书成文后的技术演进,最后是我对技术发展和阅读的思考。 斋藤康毅的《深度学习入门》介绍了最基础的深度学习知识:感知机、激活函数、损失函数、误差反向传播、超参数、正则 阅读全文
posted @ 2026-04-18 12:56 -银光- 阅读(162) 评论(0) 推荐(1)
  2026年4月11日
摘要: 本文已于 2026.04.11 发表于公众号和知乎 1. 权重加载要解决什么问题? 在阅读 vLLM 的权重加载实现之前,先理解它要解决的核心问题。 大模型的权重通常以 checkpoint 文件的形式存储在磁盘上。权重加载的任务就是:把这些文件中的张量,正确地填入模型(推理代码)的每一个参数中。这 阅读全文
posted @ 2026-04-11 17:35 -银光- 阅读(132) 评论(0) 推荐(0)
摘要: 本文已于 2026.02.23 发表于公众号和知乎 1. 背景 mini-sglang 不仅实现了大模型推理的核心功能,更在架构设计上体现出工业级推理引擎的关键特征 —— 多进程架构支撑、功能模块高内聚拆分、关键节点可扩展设计。基于这一架构叠加新功能时,效率和稳定性优势将非常显著。因此,mini-s 阅读全文
posted @ 2026-04-11 17:08 -银光- 阅读(55) 评论(0) 推荐(0)
摘要: 本文已于 2026.01.14 发表于公众号和知乎 1. 简介 面向对象设计(OOP)是传统后台开发领域非常主流的设计思想,但在大模型推理领域,极致的性能往往藏在 DOD(面向数据)的细节里。 本文通过对 mini-sglang 项目 _make_2d_indices 函数的迭代优化,展示了如何通过 阅读全文
posted @ 2026-04-11 16:56 -银光- 阅读(11) 评论(0) 推荐(0)
摘要: 本文已于 2026.01.12 发表于公众号和知乎 1. 背景 Overlap Scheduling 是大模型推理加速的重要手段。从应用视角来说:Overlap Scheduling 适用于有高 QPS 压力的场景,吞吐和 TTFT 通常会更好。如果是低 QPS 的场景,输入压力有限,Overlap 阅读全文
posted @ 2026-04-11 16:51 -银光- 阅读(30) 评论(0) 推荐(0)
  2026年1月12日
摘要: 注:本文已于2025.12.31 发表于知乎和公众号 1. 背景 如果要向一位完全不了解大模型推理技术的开发者介绍这个领域,我应该从哪里讲起? 大模型推理的最简流程可以概括为:输入一串文本 → 文本通过词典映射表转换成一串数字序号 → 序号再经过 embedding 层的计算,变成一组能代表语义的浮 阅读全文
posted @ 2026-01-12 12:38 -银光- 阅读(991) 评论(0) 推荐(1)
  2025年12月8日
摘要: 注:本文已于2025.11.30 发表于知乎和公众号 1. 简介 前序的三篇笔记,先系统总结各种SGLang 分布式集群模式,然后对TP 集群的完整执行流程做解析,再重点介绍 PP 集群的任务调度和分布式通信。本文将讲解 DP Attention 集群,聚焦在任务调度和分布式通信,并着重介绍模型层 阅读全文
posted @ 2025-12-08 00:19 -银光- 阅读(768) 评论(0) 推荐(0)
摘要: 注:本文已于2025.10.26 发表于知乎和公众号 1. 简介 前序的两篇笔记,先系统总结所有 SGLang 分布式集群模式,然后介绍 TP 集群处理请求的完整流程。本文将对 PP 集群做介绍,重点讲解流水线调度、分布式通信组以及通信量推导。PP 模式将模型中的多个层拆分到不同的 GPU 上,集群 阅读全文
posted @ 2025-12-08 00:02 -银光- 阅读(217) 评论(0) 推荐(0)