随笔分类 -  RLHF

大模型在线学习
摘要:Memory是外脑,外脑中的内容可以定期训练内化到大模型 阅读全文
posted @ 2025-08-01 14:22 风生水起 阅读(26) 评论(0) 推荐(0)
RLHF调参实战手册:实用Trick、现象排查与解决思路(zz)
摘要:前言 最近大半年的时间,我基本都泡在大模型的RLHF 训练里,反复跑了很多轮实验。这个过程中,遇到了各种各样的问题和现象,光看论文理论往往不够,很多时候还是要靠实际调试来解决。我把这段时间踩过的坑、网上查到的资料以及自己摸索总结出来的一些调参思路和解决方案整理了一下。下边就分享给大家,希望能给同样在 阅读全文
posted @ 2025-07-21 15:03 风生水起 阅读(152) 评论(0) 推荐(0)
OpenAI企业文化
摘要:OpenAI非常由下而上,尤其是在研究领域。我刚来的时候,开始询问下个季度的路线图。我得到的答案是:“这东西不存在”(虽然现在有了)。好的想法可以来自任何地方,而且事先往往并不清楚哪些想法会最有成效。进展不是来自一个宏伟的“总体规划”,而是迭代式的,随着新研究成果的出现而逐步揭示。得益于这种由下而上 阅读全文
posted @ 2025-07-18 15:24 风生水起 阅读(28) 评论(0) 推荐(0)
后训练思考
摘要:SFT和RLHF阶段主要要培养模型的三个能力:(1) 领域内问题的判别能力,对领域外的问题需要能拒识 (2) 基于召回的知识回答问题的能力 (3) 领域内风格对齐的能力。 pretrain 的技术方法正在全面入侵 post training(退火、课程学习、多阶段训练。。。) 阅读全文
posted @ 2025-07-15 16:10 风生水起 阅读(15) 评论(0) 推荐(0)
RL细节为王
摘要:O1复盘 简单复盘 o1 和 r1 之间间隔了四个月,这段时间里,rule-based reward 并没有被主流技术方案所认可。我们不妨做个简单的复盘,去思考下在那探索的四个月中,为什么大家更青睐于 prm / mcts 路线?为什么沿着这条路线做不出来突破?以及到底有哪些关键点是当时所被忽略的? 阅读全文
posted @ 2025-04-08 17:21 风生水起 阅读(296) 评论(0) 推荐(0)
LLAMA3.1数据处理
摘要:预训练数据 我们从各种包含知识的数据源创建语言模型预训练数据集,直到2023年底。我们对每个数据源应用多种重复数据消除方法和数据清理机制,以获得高质量的令牌。我们删除了包含大量个人身份信息(PII)的域名,以及包含已知成人内容的域名。 3.1.1网络数据管理 我们使用的大部分数据都是从网上获得的,我 阅读全文
posted @ 2024-07-25 23:49 风生水起 阅读(592) 评论(0) 推荐(0)
System2蒸馏
摘要:核心思路:构造出system2系统,生产更好的数据;然后微调system1,达到更好的效果。 system2系统: 1. Rephrase and Respond 蒸馏 RaR 是一种 System 2 方法,它首先提示语言模型以进一步阐述的方式来复述原始问题,然后基于复述的问题生成响应,目的是提供 阅读全文
posted @ 2024-07-16 14:12 风生水起 阅读(82) 评论(0) 推荐(0)
大型语言模型可以通过情绪刺激理解并实现增强
摘要:作者:爱可可-爱生活链接:https://zhuanlan.zhihu.com/p/665119618来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 要点: 探索了大型语言模型是否能理解和利用心理情感刺激来增强自身,这是人类智能的一个重要方面。 提出“EmotionP 阅读全文
posted @ 2023-11-06 15:04 风生水起 阅读(177) 评论(0) 推荐(0)
RLHF总结
摘要:RAFT:Reward rAnked FineTuning for Generative Foundation Model Alignment 给一批Prompt,先让大模型生成对每一个prompt生成一个answer,然后让RM去给这些prompt-answer对进行打分,把得分高的选出来用于Fi 阅读全文
posted @ 2023-11-02 14:27 风生水起 阅读(490) 评论(0) 推荐(0)
玩不起RLHF?港科大开源高效对齐算法木筏,GPT扩散模型都能用zz
摘要:开源大模型火爆,已有大小羊驼LLaMA、Vicuna等很多可选。 但这些羊驼们玩起来经常没有ChatGPT效果好,比如总说自己只是一个语言模型、没有感情blabla,拒绝和用户交朋友。 归根结底,是这些模型没有ChatGPT那么对齐(Alignment),也就是没那么符合人类用语习惯和价值观。 为此 阅读全文
posted @ 2023-08-23 10:20 风生水起 阅读(122) 评论(0) 推荐(0)
John Schulman:RLHF的实施与挑战 —— 通过强化学习缓解大模型输出幻觉(Hallucinations)的思考
摘要:John Schulman,研究科学家、OpenAI联合创始人;加州大学伯克利分校计算机科学博士,师从Pieter Abbeel。现领导OpenAI强化学习团队。 本文是对John Schulman(下文中简称为JS)的报告《Reinforcement Learning from Human Fee 阅读全文
posted @ 2023-08-03 16:24 风生水起 阅读(407) 评论(0) 推荐(0)
大模型(LLM)最新趋势总结
摘要:关键结论: 开源社区模型不具备真正智能,更好的小模型来自大模型的 Scale Down GPT-4模型信息:采用MoE架构,16个experts,800b参数 如何减少幻觉 hallucination?scaling/retrieval/reward model 指令遵循的开源小模型被过度炒作,已经 阅读全文
posted @ 2023-08-03 16:03 风生水起 阅读(201) 评论(0) 推荐(0)
聊一聊学习率预热linear warmup
摘要:来源链接:https://mp.weixin.qq.com/s?__biz=MzAxOTU5NTU4MQ==&mid=2247488715&idx=1&sn=2acedd3705b27e5b9e259485f2dd9653&chksm=9bc5fc99acb2758f82b638d03ace8993 阅读全文
posted @ 2023-07-26 15:14 风生水起 阅读(545) 评论(0) 推荐(0)
softmax和crossentropy
摘要:当进行多分类任务时,通常会使用 Softmax 函数和 CrossEntropyLoss 损失函数来处理模型的输出和计算损失。 Softmax 函数: Softmax 函数用于将模型的原始输出转换为概率分布。对于一个具有 K 个类别的模型输出向量 z,Softmax 函数的定义如下: softmax 阅读全文
posted @ 2023-07-14 15:42 风生水起 阅读(228) 评论(0) 推荐(0)
超级对齐简介zz
摘要:我们如何确保人工智能系统比人类聪明得多并遵循人类意图? 目前,我们还没有一个解决方案来引导或控制潜在的超级人工智能,并防止其失控。我们当前调整人工智能的技术,例如根据人类反馈进行强化学习,依赖于人类监督人工智能的能力。但人类无法可靠地监督比我们聪明得多的人工智能系统,乙[乙] 其他假设在未来也可能被 阅读全文
posted @ 2023-07-10 20:05 风生水起 阅读(103) 评论(0) 推荐(0)
为什么RLHF中,PPO需要Critic模型而不是直接使用RewardModel
摘要:在强化学习中,PPO(Proximal Policy Optimization)算法是一种基于策略梯度的方法,用于训练强化学习智能体。PPO算法中引入Critic模型的主要目的是为了提供一个价值估计器,用于评估状态或状态动作对的价值,从而辅助策略的更新和优化。 虽然奖励模型(Reward Model 阅读全文
posted @ 2023-06-14 18:13 风生水起 阅读(5772) 评论(1) 推荐(3)