2025 年 3月 16 日随笔档案 - 全栈大魔王

2025年3月16日

摘要：策略梯度（Policy Gradient）和动作价值（Q-learning)辨析一、核心区别目标不同策略梯度：直接学习策略函数（π(s→a)），通过最大化期望累积回报（J(θ)）的梯度更新参数，目标是“如何直接选动作”。 Q-learning：学习状态-动作值函数Q(s,a)，通过估计“选某个阅读全文

posted @ 2025-03-16 18:59 全栈大魔王阅读(83) 评论(0) 推荐(0)

全栈大魔王

公告