上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 32 下一页
摘要: GRPO 组相对策略优化(GRPO) GRPO (Group Relative Policy Optimization) 是 DeepSeek AI 对 PPO 的一种聪明的改进,旨在更加高效,尤其是在复杂的推理任务中。 GRPO 就像是 PPO 的精简版表亲。它保留了 PPO 的核心思想,但去掉了 阅读全文
posted @ 2025-07-08 15:41 jack-chen666 阅读(991) 评论(0) 推荐(0)
摘要: 目录引用null数学解释方程的推导线性代数的视角最优价值函数 V*(s)总结 引用 Https://newfacade.github.io/notes-on-reinforcement-learning/04-bellman.html 帮我用通俗的语言讲解 https://gemini.google 阅读全文
posted @ 2025-07-06 23:46 jack-chen666 阅读(81) 评论(0) 推荐(0)
摘要: Https://newfacade.github.io/notes-on-reinforcement-learning/03-approach.html 通俗易懂的讲解 这个网页主要介绍了在强化学习(Reinforcement Learning, RL)中,我们用什么方法来“训练”一个智能体(比如一 阅读全文
posted @ 2025-07-04 09:05 jack-chen666 阅读(26) 评论(0) 推荐(0)
摘要: 参考链接 故事设定:训练一名弓箭手 智能体 (Agent):一名弓箭手。 策略 (Policy):弓箭手在看到目标距离、风速等情况后,决定“拉弓的力度”和“瞄准的角度”的策略。 动作 (Action):具体的一次拉弓和瞄准。 奖励 (Reward):箭命中靶心(高奖励),命中靶子(低奖励),脱靶(负 阅读全文
posted @ 2025-07-03 09:49 jack-chen666 阅读(143) 评论(0) 推荐(0)
摘要: 目录核心思想与类比关键区别对比表详细解释PPODPOKTO如何选择样本数据集格式 核心思想与类比 KTO (Kahneman-Tversky Optimization)。这是一个较新的算法,其命名源于诺贝尔经济学奖得主丹尼尔·卡尼曼和阿莫斯·特沃斯基的前景理论。在LLM对齐的语境下,大家讨论的基本上 阅读全文
posted @ 2025-06-30 10:35 jack-chen666 阅读(738) 评论(0) 推荐(0)
摘要: 目录LlamaFactory PPO 训练:拥抱自定义奖励函数,告别LLM-as-a-Judge实战演练 LlamaFactory PPO 训练:拥抱自定义奖励函数,告别LLM-as-a-Judge 在利用 LlamaFactory 进行近端策略优化(PPO)训练时,您完全可以摆脱对大型语言模型(L 阅读全文
posted @ 2025-06-24 09:59 jack-chen666 阅读(627) 评论(1) 推荐(0)
摘要: 关于 vLLM "--chat-template" 参数的非常常见且重要的问题。简单来说,这个参数决定了 vLLM 如何将多轮对话(系统、用户、助手消息)格式化成一个单一的字符串,以便模型能够正确理解。 首选:不设置,让 vLLM 自动加载。 对于大多数发布在 Hugging Face Hub 上的 阅读全文
posted @ 2025-06-24 09:44 jack-chen666 阅读(918) 评论(0) 推荐(0)
摘要: 第一步:强化学习到底是什么? (The Big Picture) 想象一下你正在训练一只小狗。这个过程和强化学习非常相似: 智能体 (Agent):你的小狗。在RL中,这就是我们试图训练的模型或算法。 环境 (Environment):你所在的房间或公园。在RL中,这是智能体所处的外部世界。 状态 阅读全文
posted @ 2025-06-23 09:16 jack-chen666 阅读(41) 评论(0) 推荐(0)
摘要: 目录param.data.copy_ 这个用法在 PyTorch 中的含义和功能。常见使用场景: param.data.copy_ 这个用法在 PyTorch 中的含义和功能。 首先,直接回答你的问题:是的,param.data (作为一个张量) 是有 copy_ 这个方法的。 接下来,我们详细解释 阅读全文
posted @ 2025-06-22 23:48 jack-chen666 阅读(53) 评论(0) 推荐(0)
摘要: 目录第一部分:位置编码技术发展简史阶段一:绝对位置编码 (Absolute Positional Encoding)阶段二:相对位置编码 (Relative Positional Encoding)阶段三:旋转位置编码 (Rotary Positional Embedding, RoPE)第二部分: 阅读全文
posted @ 2025-06-19 21:10 jack-chen666 阅读(809) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 32 下一页