摘要: 一、DeepSpeed 总纲 官方文档:DeepSpeed 官方英文文档 cpoy下来的原版 DeepSpeed 模型的训练是使用DeeSpeed引擎完成的 DeepSpeed引擎可以包装任何 torch.nn.module 类型的模型 二、训练 1、通过 deepspeed.initialize 阅读全文
posted @ 2023-12-20 12:54 Abyss_J 阅读(2379) 评论(0) 推荐(0)
摘要: # 占坑 阅读全文
posted @ 2023-06-30 02:06 Abyss_J 阅读(15) 评论(0) 推荐(0)
摘要: ## 1、前言 近期做到的一些工作涉及到多卡训练,不得不感慨深度学习真的是一个烧钱的活,顺便记录一下,主要记录用法,不涉及实现原理。 ## 2、单机多卡并行 官方DDP文档: [GETTING STARTED WITH DISTRIBUTED DATA PARALLEL](https://pytor 阅读全文
posted @ 2023-06-21 16:16 Abyss_J 阅读(1236) 评论(0) 推荐(1)
摘要: ## 1、Deformable Attention 的理解 Deforable Attention,是Deforable DETR 架构中使用的一个注意力模块,与传统Transformer 查询所有空间位置不同,Deformable Attention 只关注 **参考点(reference Poi 阅读全文
posted @ 2023-05-15 21:40 Abyss_J 阅读(1070) 评论(0) 推荐(0)
摘要: 先挖个坑 阅读全文
posted @ 2023-05-15 21:31 Abyss_J 阅读(20) 评论(0) 推荐(0)
摘要: ## 1、正则化的理解 当模型的复杂度>>数据的复杂度时,会出现过拟合现象,即模型过度拟合了训练数据,其泛化能力变差。为此,会通过**数据增强、降维、正则化**等方法防止模型过拟合。 $$ \mathop{\arg\min}\limits_{\omega} (\mathcal{L}(w) + \la 阅读全文
posted @ 2023-04-06 15:51 Abyss_J 阅读(208) 评论(0) 推荐(0)