随笔分类 - 深度学习

摘要：

这一章我们讲解模型训练涉及到的几个重要方法：pretrain,SFT,LoRA,DPO。项目作者提供了两种训练策略。如下图所示一种是完整的训练流程，先通过1.6G大小的数据集pretrain预训练一个基础模型，然后通过16.5G数据集SFT微调得到一个强力的基线模型，最后通过0.9G数据集做RL- 阅读全文

posted @ 2025-11-24 17:46 bradinz 阅读(118) 评论(0) 推荐(0)

炼丹心得&调参技巧

摘要：摘要本篇BLOG整合了各种调参技巧，种子的选取（玄学）推荐两个好用的种子 random.seed(42) ，42是《银河系漫游指南》中的答案，社区反馈，这个种子确实在大多数任务下表现不错，有人说，这是因为光需要\(10^{-42}\)秒才能穿过质子的直径,也有人说，光通过水面折射42度形成彩虹阅读全文

posted @ 2025-09-01 19:30 bradinz 阅读(125) 评论(0) 推荐(0)

鸭蛋仙人的博客

随笔分类 - 深度学习

公告