jack-chen666 - 博客园

2024年12月6日

摘要： 1. 参考 https://blog.csdn.net/voiiid/article/details/114825246 https://blog.csdn.net/shizheng_Li/article/details/144140912 2. 半精度浮点fp16 这两种数据类型编程是经常遇见双阅读全文

posted @ 2024-12-06 16:39 jack-chen666 阅读(832) 评论(0) 推荐(0)

2024年12月5日

大模型--FlashAttention V2 原理--27

摘要：目录1. 参考2. 回顾 FlashAttention V1V2Efficient Memory Attentionxformers 1. 参考 https://zhuanlan.zhihu.com/p/642962397 2. 回顾 FlashAttention V1 softmax稳定版 Fla 阅读全文

posted @ 2024-12-05 09:44 jack-chen666 阅读(265) 评论(0) 推荐(0)

2024年11月27日

大模型--模型量化GPTQ--24

摘要：目录1. 参考2. OBS -- Optimal Brain Surgeon and General Network Pruning3. Optimal Brain Compression: A Framework for Accurate Post-Training Quantization an 阅读全文

posted @ 2024-11-27 09:40 jack-chen666 阅读(462) 评论(0) 推荐(0)

2024年11月13日

大模型--Megatron TP张量并行-15

摘要：目录1. 参考2. 介绍3. 权重的切分3.1 按行切分权重3.2 按列切分权重4. MLP层5. Self-Attention层6. Embedding层7. Cross-entropy层8. 张量模型并行 + 数据并行 1. 参考 https://zhuanlan.zhihu.com/p/622 阅读全文

posted @ 2024-11-13 18:14 jack-chen666 阅读(982) 评论(0) 推荐(0)

2024年11月11日

大模型--训练加速之deepspeed demo-13

摘要：目录1. config.json2. main.py3. start.sh 1. config.json { "train_batch_size": 4, "steps_per_print": 2000, "optimizer": { "type": "Adam", "params": { "lr" 阅读全文

posted @ 2024-11-11 15:49 jack-chen666 阅读(146) 评论(0) 推荐(0)

2024年11月8日

大模型--训练加速之数据并行(DP, DDP与ZeRO)-上-11

摘要：目录1. 参考2. 总结3. 分布式数据并行(DDP)4. 总结 1. 参考 https://zhuanlan.zhihu.com/p/617133971 2. 总结以Google GPipe为代表的流水线并行范式，当模型太大，一块GPU放不下时，流水线并行，将模型的不同层放到不同的GPU上，通阅读全文

posted @ 2024-11-08 17:55 jack-chen666 阅读(624) 评论(0) 推荐(0)

大模型--训练加速之流水线并行Pipeline Parallelism-10

摘要：目录1. 参考2. 概述3. 目标4. 模型并行4.流水线并行4.1 切分micro-batch4.2 re-materialization（active checkpoint）5. 实验效果5.1 GPU数量 VS 模型大小5.2 GPU数量 VS 训练速度5.3 Gpipe下时间消耗分布 1. 阅读全文

posted @ 2024-11-08 11:33 jack-chen666 阅读(456) 评论(0) 推荐(0)

transformer-视觉-IPT 模型- 01

摘要：目录1. 论文2. 代码 1. 论文 https://arxiv.org/pdf/2012.00364 2. 代码 Code is available at https://github.com/huawei-noah/Pretrained-IPT and https:gitee.com/minds 阅读全文

posted @ 2024-11-08 09:54 jack-chen666 阅读(44) 评论(0) 推荐(0)

2024年11月7日

大模型-大模型推理部署-08

摘要：目录大模型常见推理框架：Transformers、Llama.cpp、Llamafile、Ollama、vLLM、TGI（Text Generation Inference)、DeepSpeed。 vLLM，deepspeed是重点 Hugging Face的Transformers 强大的Pyt 阅读全文

posted @ 2024-11-07 16:11 jack-chen666 阅读(458) 评论(0) 推荐(0)

大模型-大模型训练框架-07

摘要：目录1. 训练框架概述2. 重点 Deepspeed框架介绍3. DeepSpeed框架实践4. debug5. 扩展 1. 训练框架概述 100亿 10^10 10B 参数量是模型具备涌现能力的基本门槛如何充分的利用显卡的能力充分的使用显存分布式训练框架对比 Megatron and De 阅读全文

posted @ 2024-11-07 15:54 jack-chen666 阅读(831) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情