摘要: 详解SFT、RLHF & 详解大模型RL算法 & 详解GRPO SFT 模型输出幻觉造成的损失较小 SFT难以做到的事: 让模型拒绝回答:避免输出幻觉 SFT时,少量的数据都能极大地提高模型的表现,包括让模型输出更少的harmful内容 Pre-train 和 SFT 的界限变得模糊,都是预测序列, 阅读全文
posted @ 2026-01-10 12:00 片刻的自由 阅读(43) 评论(0) 推荐(0)
摘要: 模型评估详解 Perplexity perplexity 表示模型是否对一部分数据足够关注 使用perplexing更容易你和scaling law的曲线 困惑度任务:完形填空(单词/句子) Benchmark task:考验模型对输入的理解 Massive Multitask Language U 阅读全文
posted @ 2026-01-10 11:57 片刻的自由 阅读(48) 评论(0) 推荐(0)
摘要: 详解Scaling laws 缩放定律研究的关系包括:数据与表现;数据与模型大小;超参数与表现 缩放定律是为了获取数据、模型超参数与表现间的关系,尽量避免大规模实验 Q:实际中,我们数据有限,重复的数据是如何影响缩放的? 可以依据定律,决定训练的epoch 考虑到重复的数据价值较少。数据选择更适合缩 阅读全文
posted @ 2026-01-10 11:51 片刻的自由 阅读(71) 评论(0) 推荐(0)
摘要: GPU原理与分布式训练基础 & 内核优化与Triton框架应用 Triton 在triton编程中,通常以SM为原子单位进行编程,SM内部有多个SP(streaming processor),一个SP会并行处理大量线程 粒度大到小:BLock -> Warp -> Thread Block由若干Th 阅读全文
posted @ 2026-01-10 11:44 片刻的自由 阅读(30) 评论(0) 推荐(0)
摘要: 大模型概述与Tokenization & 利用Pytorch搭建大模型 Tokenizer BPE (byte pair encode) 从字符级别开始,逐步合并高频的字符对。 最终生成一个既能表示常见单词,又能拆解未知词的子词词汇表 。 可以有效控制词汇表大小,同时避免“未登录词”问题(OOV, 阅读全文
posted @ 2026-01-10 11:32 片刻的自由 阅读(78) 评论(0) 推荐(0)