会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
红豆生南国 是很遥远的事情
种豆南山下 github
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
13
14
15
16
17
18
19
20
21
···
34
下一页
2024年12月21日
大模型--采样技术 TopK TopP 惩罚系数--37
摘要: 目录1. 参考2. 概述重复惩罚(Repetition Penalty) 1. 参考 https://mp.weixin.qq.com/s/mBZA6PaMotJw7WeVdA359g 2. 概述 大型语言模型(LLMs)通过“根据上下文预测下一个 token 的概率分布”来生成文本。最简单的采样方
阅读全文
posted @ 2024-12-21 14:14 jack-chen666
阅读(949)
评论(0)
推荐(0)
2024年12月11日
大模型--BN 批量正则化--33
摘要: 目录1. 参考Batch Normalization理论作用 1. 参考 详解归一化、标准化、正则化以及batch normalization 论文 Batch Normalization BatchNorm层通常在激活函数之前应用。 它会自动计算每个特征的均值和方差,并根据小批量数据的统计信息进行
阅读全文
posted @ 2024-12-11 17:34 jack-chen666
阅读(88)
评论(0)
推荐(0)
大模型--激活函数汇总--32
摘要: 目录1. 参考2. 神经网络LogisticTanh函数Hard-Logistic函数和Hard-Tanh函数ReLU函数优点缺点带泄露的ReLU带参数的ReLUELU函数Softplus函数Swish函数MISHGELU 激活函数 1. 参考 邱锡鹏老师的《神经网络与深度学习》 2. 神经网络 �
阅读全文
posted @ 2024-12-11 16:11 jack-chen666
阅读(458)
评论(0)
推荐(0)
大模型--ReLU激活函数--31
摘要: 目录1 参考2. 基础np.dotnp.outer 1 参考 “死亡”ReLUs 邱锡鹏老师的《神经网络与深度学习》 2. 基础 Sigmoid型函数的两端饱和, ReLU函数为左饱和函数,且在x > 0时导数为1,在一定程度上缓解了神经网络的梯度消失问题,加速梯度下降的收敛速度。 ReLU也是非线
阅读全文
posted @ 2024-12-11 12:00 jack-chen666
阅读(145)
评论(0)
推荐(0)
2024年12月6日
大模型--数据类型FP16 BF16--29
摘要: 1. 参考 https://blog.csdn.net/voiiid/article/details/114825246 https://blog.csdn.net/shizheng_Li/article/details/144140912 2. 半精度浮点fp16 这两种数据类型编程是经常遇见 双
阅读全文
posted @ 2024-12-06 16:39 jack-chen666
阅读(906)
评论(0)
推荐(0)
2024年12月5日
大模型--FlashAttention V2 原理--27
摘要: 目录1. 参考2. 回顾 FlashAttention V1V2Efficient Memory Attentionxformers 1. 参考 https://zhuanlan.zhihu.com/p/642962397 2. 回顾 FlashAttention V1 softmax稳定版 Fla
阅读全文
posted @ 2024-12-05 09:44 jack-chen666
阅读(288)
评论(0)
推荐(0)
2024年11月27日
大模型--模型量化GPTQ--24
摘要: 目录1. 参考2. OBS -- Optimal Brain Surgeon and General Network Pruning3. Optimal Brain Compression: A Framework for Accurate Post-Training Quantization an
阅读全文
posted @ 2024-11-27 09:40 jack-chen666
阅读(538)
评论(0)
推荐(0)
2024年11月13日
大模型--Megatron TP张量并行-15
摘要: 目录1. 参考2. 介绍3. 权重的切分3.1 按行切分权重3.2 按列切分权重4. MLP层5. Self-Attention层6. Embedding层7. Cross-entropy层8. 张量模型并行 + 数据并行 1. 参考 https://zhuanlan.zhihu.com/p/622
阅读全文
posted @ 2024-11-13 18:14 jack-chen666
阅读(1126)
评论(0)
推荐(0)
2024年11月11日
大模型--训练加速之deepspeed demo-13
摘要: 目录1. config.json2. main.py3. start.sh 1. config.json { "train_batch_size": 4, "steps_per_print": 2000, "optimizer": { "type": "Adam", "params": { "lr"
阅读全文
posted @ 2024-11-11 15:49 jack-chen666
阅读(158)
评论(0)
推荐(0)
2024年11月8日
大模型--训练 加速之 数据并行(DP, DDP与ZeRO)-上-11
摘要: 目录1. 参考2. 总结3. 分布式数据并行(DDP)4. 总结 1. 参考 https://zhuanlan.zhihu.com/p/617133971 2. 总结 以Google GPipe为代表的流水线并行范式,当模型太大,一块GPU放不下时,流水线并行,将模型的不同层放到不同的GPU上, 通
阅读全文
posted @ 2024-11-08 17:55 jack-chen666
阅读(646)
评论(0)
推荐(0)
上一页
1
···
13
14
15
16
17
18
19
20
21
···
34
下一页
公告