会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
-银光-
学而时习之,温故而知新
博客园
首页
新随笔
联系
管理
订阅
1
2
3
4
5
···
9
下一页
2026年1月12日
基于 nano-vLLM 学习大模型推理关键功能
摘要: 注:本文已于2025.12.31 发表于知乎和公众号 1. 背景 如果要向一位完全不了解大模型推理技术的开发者介绍这个领域,我应该从哪里讲起? 大模型推理的最简流程可以概括为:输入一串文本 → 文本通过词典映射表转换成一串数字序号 → 序号再经过 embedding 层的计算,变成一组能代表语义的浮
阅读全文
posted @ 2026-01-12 12:38 -银光-
阅读(239)
评论(0)
推荐(0)
2025年12月8日
SGLang 的 DP Attention 模式浅析
摘要: 注:本文已于2025.11.30 发表于知乎和公众号 1. 简介 前序的三篇笔记,先系统总结各种SGLang 分布式集群模式,然后对TP 集群的完整执行流程做解析,再重点介绍 PP 集群的任务调度和分布式通信。本文将讲解 DP Attention 集群,聚焦在任务调度和分布式通信,并着重介绍模型层
阅读全文
posted @ 2025-12-08 00:19 -银光-
阅读(153)
评论(0)
推荐(0)
SGLang 的 PP 模式浅析
摘要: 注:本文已于2025.10.26 发表于知乎和公众号 1. 简介 前序的两篇笔记,先系统总结所有 SGLang 分布式集群模式,然后介绍 TP 集群处理请求的完整流程。本文将对 PP 集群做介绍,重点讲解流水线调度、分布式通信组以及通信量推导。PP 模式将模型中的多个层拆分到不同的 GPU 上,集群
阅读全文
posted @ 2025-12-08 00:02 -银光-
阅读(60)
评论(0)
推荐(0)
2025年12月7日
SGLang 的 TP 模式浅析
摘要: 本文已于 2025.09.21 发表于知乎和公众号。 1. 简介 在前序笔记中总结了SGLang 的各种分布式集群模式,本文将进一步总结 TP 模式。TP 模式将模型中的权重张量按行或者列拆分到单机或者多机的多个 GPU 中,每个 GPU 处理部分计算。本文对 SGLang 实现的 TP 模式做简单
阅读全文
posted @ 2025-12-07 23:43 -银光-
阅读(85)
评论(0)
推荐(0)
SGLang 分布式集群模式概览
摘要: 本文已于2025.09.14 发表于知乎和公众号。 计算加速是推理系统优化的终极目标,并行计算是实现该目标的核心手段,而分布式集群则是支撑并行计算落地的底层基础设施。本文概括性的介绍 SGLang 支持的多种分布式集群。 1. 六种分布式集群 SGLang 有多种分布式集群计算加速手段,可以分为三种
阅读全文
posted @ 2025-12-07 23:31 -银光-
阅读(106)
评论(0)
推荐(0)
2025年2月17日
了解英伟达和黄仁勋——基于《英伟达之道》和《英伟达之芯》
摘要: 最近两周读完了《英伟达之道》和《英伟达之芯》。大模型人工智能在今天能这么火爆,除了辛顿等神经网络科学家的坚持之外,更重要的是以英伟达为代表的算力芯片的发展,英伟达是成立于 1993 年的科技公司,从视频游戏的图形芯片到并行计算的算力芯片,它是怎么起步的,又是怎么做到持续创新的,GPU 发展的历史又是
阅读全文
posted @ 2025-02-17 23:22 -银光-
阅读(564)
评论(1)
推荐(3)
2024年8月31日
C++ lambda 引用捕获临时对象引发 coredump 的案例
摘要: 今天复习前几年在项目过程中积累的各类技术案例,有一个小的 coredump 案例,当时小组里几位较资深的同事都没看出来,后面是我周末查了两三个小时解决掉的,今天再做一次系统的总结,给出一个复现的案例代码,案例代码比较简单,便于学习理解。 1. 简介 原则:临时对象不应该被 lambda 引用捕获,因
阅读全文
posted @ 2024-08-31 20:11 -银光-
阅读(406)
评论(0)
推荐(2)
2024年7月6日
GCC8 编译优化 BUG 导致的内存泄漏
摘要: 1. 背景 1.1. 接手老系统 最近我们又接手了一套老系统,老系统的迭代效率和稳定性较差,我们打算做重构改造,但重构周期较长,在改造完成之前还有大量的需求迭代。因此我们打算先从稳定性和迭代效率出发做一些微小的升级,其中一项效率提升便是升级编译工具 和 GCC 版本。 老系统使用 Autotools
阅读全文
posted @ 2024-07-06 21:14 -银光-
阅读(1721)
评论(13)
推荐(9)
2023年10月29日
C++小练习:字符串分割的高性能实现
摘要: 字符串分割是很常见的功能,通常其实现代码也很简洁,这就使得开发者容易忽略其性能,写出非最佳性能的代码,譬如:没有使用现代 C++ 中的 string_view、对遍历过程没有精细考虑。通过精细的控制计算量以及应用 SIMD 指令可以获得比较好的收益,特别是 SIMD 指令在任意多分隔符场景下性能优化效果非常明显。
阅读全文
posted @ 2023-10-29 22:00 -银光-
阅读(3233)
评论(7)
推荐(10)
2019年4月14日
B+树的Copy-on-Write设计
摘要: 本文主要介绍B+树的Copy-On-Write,包括由来、设计思路和核心源码实现(以Xapian源码为例)。中文的互联网世界里,对B树、B+树的科普介绍很丰富,但对它们在工业界的实际使用却几乎没有相关介绍文章,本文既是总结分享,也是资料索引。 在阅读本文之前需要先对B+树有概念上的认识,可以阅读wi
阅读全文
posted @ 2019-04-14 22:58 -银光-
阅读(3245)
评论(0)
推荐(1)
1
2
3
4
5
···
9
下一页
公告