随笔分类 - 深度学习
摘要:
这一章我们讲解模型训练涉及到的几个重要方法:pretrain,SFT,LoRA,DPO。项目作者提供了两种训练策略。如下图所示 一种是完整的训练流程,先通过1.6G大小的数据集pretrain预训练一个基础模型,然后通过16.5G数据集SFT微调得到一个强力的基线模型,最后通过0.9G数据集做RL-
阅读全文
这一章我们讲解模型训练涉及到的几个重要方法:pretrain,SFT,LoRA,DPO。项目作者提供了两种训练策略。如下图所示 一种是完整的训练流程,先通过1.6G大小的数据集pretrain预训练一个基础模型,然后通过16.5G数据集SFT微调得到一个强力的基线模型,最后通过0.9G数据集做RL-
阅读全文
摘要:摘要 本篇BLOG整合了各种调参技巧, 种子的选取(玄学) 推荐两个好用的种子 random.seed(42) ,42是《银河系漫游指南》中的答案,社区反馈,这个种子确实在大多数任务下表现不错,有人说,这是因为光需要\(10^{-42}\)秒才能穿过质子的直径,也有人说,光通过水面折射42度形成彩虹
阅读全文

浙公网安备 33010602011771号