会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
SunStriKE's Blog
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
下一页
2025年6月23日
veRL代码阅读-2.Ray
摘要: 对前置相关知识, ray框架的基础学习.
阅读全文
posted @ 2025-06-23 14:54 SunStriKE
阅读(553)
评论(0)
推荐(0)
2025年6月20日
veRL代码阅读-1.论文原理
摘要: 以veRL代码阅读为基础学习postTraing框架, 本篇主要对论文原理进行学习
阅读全文
posted @ 2025-06-20 19:22 SunStriKE
阅读(1293)
评论(0)
推荐(0)
2025年5月22日
SgLang代码细读-3.Cache
摘要: Sglang代码细读的最后一篇, 主要集中分析了框架中的二级显存池, cache复用相关的ChunkCache/RadixCache, 以及PD分离后KVCache是如何进行传输的 这三部分内容
阅读全文
posted @ 2025-05-22 16:24 SunStriKE
阅读(1892)
评论(0)
推荐(0)
2025年5月20日
SgLang代码细读-2.forward过程
摘要: 主要记录了sglang 从scheduleBatch开始如何进行forward推理, 通过采样得到最后输出的token过程.
阅读全文
posted @ 2025-05-20 21:30 SunStriKE
阅读(1511)
评论(0)
推荐(0)
2025年5月19日
SgLang代码细读-1.从req到batch
摘要: 基于SgLang开源主干PD分离实现的代码细读, 第一部分主要包括从request到batch过程中框架是如何处理的
阅读全文
posted @ 2025-05-19 14:33 SunStriKE
阅读(3141)
评论(0)
推荐(0)
2025年2月21日
triton 简要学习笔记
摘要: 对triton中的基本语法和cuda进行对照学习
阅读全文
posted @ 2025-02-21 21:04 SunStriKE
阅读(543)
评论(0)
推荐(0)
2025年2月12日
deepseek-v3 论文阅读
摘要: deepseek-v3论文中 AIInfra相关的技术学习
阅读全文
posted @ 2025-02-12 21:15 SunStriKE
阅读(1397)
评论(0)
推荐(0)
2025年2月6日
[megatron代码阅读] 2. TP和PP实现
摘要: megatron 源码阅读第二篇, 看了TP和PP的对应实现
阅读全文
posted @ 2025-02-06 20:28 SunStriKE
阅读(906)
评论(0)
推荐(0)
2025年1月13日
[megatron代码阅读] 1. 初始化和组网
摘要: 以pretrain_gpt.py为例, 看megatron的整体逻辑. 本章主要包括megatron初始化相关逻辑, 核心函数为initialize_megatron, setup_model_and_optimizer两个 initialize_megatron parse_args 从argpa
阅读全文
posted @ 2025-01-13 16:15 SunStriKE
阅读(790)
评论(0)
推荐(0)
2024年7月29日
LLM并行训练7-混合并行总结
摘要: LLM并行训练-总结: 如何调整混合并行策略和nvidia训练GPT3的分析
阅读全文
posted @ 2024-07-29 21:29 SunStriKE
阅读(1431)
评论(0)
推荐(0)
1
2
3
4
5
下一页
公告