Loading

摘要: LLM训练activation优化相关技术, 包括激活重计算/序列并行/zero-R/zero-offload等 阅读全文
posted @ 2024-07-20 21:10 SunStriKE 阅读(789) 评论(2) 推荐(0)
摘要: LLM并行训练-moe并行学习笔记 阅读全文
posted @ 2024-07-20 12:48 SunStriKE 阅读(2723) 评论(0) 推荐(0)
摘要: 字节megascale论文学习笔记 阅读全文
posted @ 2024-06-29 18:27 SunStriKE 阅读(539) 评论(0) 推荐(1)
摘要: 大模型训练 数据并行相关的学习笔记, 主要内容 zero, zero++ 阅读全文
posted @ 2024-06-28 22:25 SunStriKE 阅读(766) 评论(0) 推荐(0)
摘要: 张量并行相关原理的学习笔记 阅读全文
posted @ 2024-06-27 17:22 SunStriKE 阅读(589) 评论(0) 推荐(0)
摘要: 流水线并行相关原理的学习笔记 阅读全文
posted @ 2024-06-26 22:06 SunStriKE 阅读(1377) 评论(0) 推荐(1)
摘要: GPU进行卡间通信/多机通信的算法简介 阅读全文
posted @ 2024-06-17 19:56 SunStriKE 阅读(347) 评论(0) 推荐(0)
摘要: 在CUDA程序中, 访存优化个人认为是最重要的优化项. 往往kernel会卡在数据传输而不是计算上, 为了最大限度利用GPU的计算能力, 我们需要根据GPU硬件架构对kernel访存进行合理的编写. 阅读全文
posted @ 2024-06-17 15:31 SunStriKE 阅读(2288) 评论(0) 推荐(1)
摘要: 介绍CUDA的基本概念和架构,帮助读者建立对CUDA的初步认识,包括硬件架构/CUDA基础等内容 阅读全文
posted @ 2024-06-06 19:49 SunStriKE 阅读(769) 评论(0) 推荐(0)
摘要: Paddle图神经网络训练, PGLBox代码阅读笔记, 主要为核心GPU游走相关逻辑, 分布式训练部分后续补充. 阅读全文
posted @ 2023-09-05 20:04 SunStriKE 阅读(506) 评论(0) 推荐(0)