会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
abyss-130
博客园
首页
新随笔
联系
订阅
管理
2023年12月20日
DeepSpeed分布式训练
摘要: 一、DeepSpeed 总纲 官方文档:DeepSpeed 官方英文文档 cpoy下来的原版 DeepSpeed 模型的训练是使用DeeSpeed引擎完成的 DeepSpeed引擎可以包装任何 torch.nn.module 类型的模型 二、训练 1、通过 deepspeed.initialize
阅读全文
posted @ 2023-12-20 12:54 Abyss_J
阅读(2379)
评论(0)
推荐(0)
2023年6月30日
四、Self-Attn的一些细节补充
摘要: # 占坑
阅读全文
posted @ 2023-06-30 02:06 Abyss_J
阅读(15)
评论(0)
推荐(0)
2023年6月21日
多卡训练
摘要: ## 1、前言 近期做到的一些工作涉及到多卡训练,不得不感慨深度学习真的是一个烧钱的活,顺便记录一下,主要记录用法,不涉及实现原理。 ## 2、单机多卡并行 官方DDP文档: [GETTING STARTED WITH DISTRIBUTED DATA PARALLEL](https://pytor
阅读全文
posted @ 2023-06-21 16:16 Abyss_J
阅读(1236)
评论(0)
推荐(1)
2023年5月15日
三、Self-Attn 与 Deformable-Attn
摘要: ## 1、Deformable Attention 的理解 Deforable Attention,是Deforable DETR 架构中使用的一个注意力模块,与传统Transformer 查询所有空间位置不同,Deformable Attention 只关注 **参考点(reference Poi
阅读全文
posted @ 2023-05-15 21:40 Abyss_J
阅读(1070)
评论(0)
推荐(0)
二、优化算法
摘要: 先挖个坑
阅读全文
posted @ 2023-05-15 21:31 Abyss_J
阅读(20)
评论(0)
推荐(0)
2023年4月6日
一、正则化
摘要: ## 1、正则化的理解 当模型的复杂度>>数据的复杂度时,会出现过拟合现象,即模型过度拟合了训练数据,其泛化能力变差。为此,会通过**数据增强、降维、正则化**等方法防止模型过拟合。 $$ \mathop{\arg\min}\limits_{\omega} (\mathcal{L}(w) + \la
阅读全文
posted @ 2023-04-06 15:51 Abyss_J
阅读(208)
评论(0)
推荐(0)
公告