Abyss_J - 博客园

2023年12月20日

摘要：一、DeepSpeed 总纲官方文档：DeepSpeed 官方英文文档 cpoy下来的原版 DeepSpeed 模型的训练是使用DeeSpeed引擎完成的 DeepSpeed引擎可以包装任何 torch.nn.module 类型的模型二、训练 1、通过 deepspeed.initialize 阅读全文

posted @ 2023-12-20 12:54 Abyss_J 阅读(2532) 评论(0) 推荐(0)

2023年6月30日

四、Self-Attn的一些细节补充

摘要： # 占坑阅读全文

posted @ 2023-06-30 02:06 Abyss_J 阅读(16) 评论(0) 推荐(0)

2023年6月21日

多卡训练

摘要： ## 1、前言近期做到的一些工作涉及到多卡训练，不得不感慨深度学习真的是一个烧钱的活，顺便记录一下，主要记录用法，不涉及实现原理。 ## 2、单机多卡并行官方DDP文档： [GETTING STARTED WITH DISTRIBUTED DATA PARALLEL](https://pytor 阅读全文

posted @ 2023-06-21 16:16 Abyss_J 阅读(1307) 评论(0) 推荐(1)

2023年5月15日

三、Self-Attn 与 Deformable-Attn

摘要： ## 1、Deformable Attention 的理解 Deforable Attention，是Deforable DETR 架构中使用的一个注意力模块，与传统Transformer 查询所有空间位置不同，Deformable Attention 只关注 **参考点（reference Poi 阅读全文

posted @ 2023-05-15 21:40 Abyss_J 阅读(1134) 评论(0) 推荐(0)

二、优化算法

摘要：先挖个坑阅读全文

posted @ 2023-05-15 21:31 Abyss_J 阅读(21) 评论(0) 推荐(0)

2023年4月6日

一、正则化

摘要： ## 1、正则化的理解当模型的复杂度>>数据的复杂度时，会出现过拟合现象，即模型过度拟合了训练数据，其泛化能力变差。为此，会通过**数据增强、降维、正则化**等方法防止模型过拟合。 $$ \mathop{\arg\min}\limits_{\omega} (\mathcal{L}(w) + \la 阅读全文

posted @ 2023-04-06 15:51 Abyss_J 阅读(235) 评论(0) 推荐(0)

abyss-130

公告