摘要:        
想象一下,你是一位国王,想让你的弓箭手们射箭射得更准。这里的“更准”就是我们要最大化的目标 J(θ),而 θ 就是你给弓箭手们的“指导方针”(比如,往哪个方向瞄准,用多大的力气等等)。 我们想调整这个“指导方针” θ,让所有弓箭手射出的箭靶得分的期望(平均分)最高。 J(θ) = E[R(τ)] J    阅读全文
posted @ 2025-07-15 20:47
jack-chen666
阅读(82)
评论(0)
推荐(0)
        
            
        
        
摘要:        
目录参考内容为什么需要 Actor-Critic?—— REINFORCE 的痛点Actor-Critic 架构:两位一体的合作核心思想:用“优势”替代“回报”如何计算优势函数?—— TD 误差的登场算法与更新公式代码实现解读模型定义 参考 https://newfacade.github.io/n    阅读全文
posted @ 2025-07-15 15:57
jack-chen666
阅读(386)
评论(0)
推荐(0)
        

浙公网安备 33010602011771号