2025 年 7月 15 日随笔档案 - jack-chen666

2025年7月15日

大模型- 强化学习-策略梯度方法（Policy Gradient）log-derivative trick--86

摘要：想象一下，你是一位国王，想让你的弓箭手们射箭射得更准。这里的“更准”就是我们要最大化的目标 J(θ)，而 θ 就是你给弓箭手们的“指导方针”（比如，往哪个方向瞄准，用多大的力气等等）。我们想调整这个“指导方针” θ，让所有弓箭手射出的箭靶得分的期望（平均分）最高。 J(θ) = E[R(τ)] J 阅读全文

posted @ 2025-07-15 20:47 jack-chen666 阅读(105) 评论(0) 推荐(0)

大模型- 强化学习-Actor-Critic (演员-评论家) --85

摘要：目录参考内容为什么需要 Actor-Critic？—— REINFORCE 的痛点Actor-Critic 架构：两位一体的合作核心思想：用“优势”替代“回报”如何计算优势函数？—— TD 误差的登场算法与更新公式代码实现解读模型定义参考 https://newfacade.github.io/n 阅读全文

posted @ 2025-07-15 15:57 jack-chen666 阅读(723) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情