摘要: 目录参考Q-learning1. 核心思想:动作价值函数 Q(s, a)关键特性:异策略 (Off-policy)3. Q-learning 的更新公式4. Q-learning 算法流程5. 与 SARSA 的对比 参考 https://newfacade.github.io/notes-on-r 阅读全文
posted @ 2025-07-13 11:51 jack-chen666 阅读(1) 评论(0) 推荐(0)
摘要: 目录参考蒙特卡洛(Monte Carlo)时序差分学习 (Temporal-Difference, TD)N步自举 (n-step Bootstrapping) 参考 Https://newfacade.github.io/notes-on-reinforcement-learning/07-mon 阅读全文
posted @ 2025-07-13 11:24 jack-chen666 阅读(1) 评论(0) 推荐(0)
摘要: 目录参考内容策略评估 (Policy Evaluation)迭代式策略评估 (Iterative Policy Evaluation)策略改进 (Policy Improvement)值迭代 (Value Iteration) 参考 https://g.co/gemini/share/1488120 阅读全文
posted @ 2025-07-12 11:49 jack-chen666 阅读(0) 评论(0) 推荐(0)
摘要: 目录1. 参考Llamafactory配置自定义奖励函数复用api reward服务添加新的function参数实际操作添加读取llm模型逻辑,增加type为function的情况添加mini_batch_labels到get_rewards的入参通过reward function获取reward逻 阅读全文
posted @ 2025-07-12 11:25 jack-chen666 阅读(2) 评论(0) 推荐(0)
摘要: GRPO 组相对策略优化(GRPO) GRPO (Group Relative Policy Optimization) 是 DeepSeek AI 对 PPO 的一种聪明的改进,旨在更加高效,尤其是在复杂的推理任务中。 GRPO 就像是 PPO 的精简版表亲。它保留了 PPO 的核心思想,但去掉了 阅读全文
posted @ 2025-07-08 15:41 jack-chen666 阅读(54) 评论(0) 推荐(0)
摘要: 目录引用null数学解释方程的推导线性代数的视角最优价值函数 V*(s)总结 引用 Https://newfacade.github.io/notes-on-reinforcement-learning/04-bellman.html 帮我用通俗的语言讲解 https://gemini.google 阅读全文
posted @ 2025-07-06 23:45 jack-chen666 阅读(4) 评论(0) 推荐(0)
摘要: Https://newfacade.github.io/notes-on-reinforcement-learning/03-approach.html 通俗易懂的讲解 这个网页主要介绍了在强化学习(Reinforcement Learning, RL)中,我们用什么方法来“训练”一个智能体(比如一 阅读全文
posted @ 2025-07-04 09:04 jack-chen666 阅读(9) 评论(0) 推荐(0)
摘要: 参考链接 故事设定:训练一名弓箭手 智能体 (Agent):一名弓箭手。 策略 (Policy):弓箭手在看到目标距离、风速等情况后,决定“拉弓的力度”和“瞄准的角度”的策略。 动作 (Action):具体的一次拉弓和瞄准。 奖励 (Reward):箭命中靶心(高奖励),命中靶子(低奖励),脱靶(负 阅读全文
posted @ 2025-07-03 09:49 jack-chen666 阅读(9) 评论(0) 推荐(0)
摘要: 目录核心思想与类比关键区别对比表详细解释PPODPOKTO如何选择样本数据集格式 核心思想与类比 KTO (Kahneman-Tversky Optimization)。这是一个较新的算法,其命名源于诺贝尔经济学奖得主丹尼尔·卡尼曼和阿莫斯·特沃斯基的前景理论。在LLM对齐的语境下,大家讨论的基本上 阅读全文
posted @ 2025-06-30 10:35 jack-chen666 阅读(86) 评论(0) 推荐(0)
摘要: 目录LlamaFactory PPO 训练:拥抱自定义奖励函数,告别LLM-as-a-Judge实战演练 LlamaFactory PPO 训练:拥抱自定义奖励函数,告别LLM-as-a-Judge 在利用 LlamaFactory 进行近端策略优化(PPO)训练时,您完全可以摆脱对大型语言模型(L 阅读全文
posted @ 2025-06-24 09:59 jack-chen666 阅读(65) 评论(0) 推荐(0)