会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
全栈大魔王
博客园
首页
新随笔
联系
订阅
管理
2025年3月16日
强化学习入门
摘要: 策略梯度(Policy Gradient)和动作价值(Q-learning)辨析 一、核心区别 目标不同 策略梯度:直接学习策略函数(π(s→a)),通过最大化期望累积回报(J(θ))的梯度更新参数,目标是“如何直接选动作”。 Q-learning:学习状态-动作值函数Q(s,a),通过估计“选某个
阅读全文
posted @ 2025-03-16 18:59 全栈大魔王
阅读(83)
评论(0)
推荐(0)
公告