会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大浪淘沙、
不积跬步无以至千里,不积小流无以成江海,骐骥一跃不能十步,驽马十驾功在不舍。
博客园
首页
新随笔
联系
订阅
管理
2020年5月15日
李宏毅的强化学习视频用于梳理翻阅(2)策略与值
摘要: Actor-Critic算法 在之前的Policy Gradient算法中,其运行结果不够稳定的至少一条原因是:奖励项不够稳定。 下图中,蓝色实现标记的当前和随后的奖励累积和,作为评判𝜋生成的轨迹的好坏度量,即通过累积和修正𝑙𝑜𝑔𝑝_𝜃。 但是,该累积和受到了策略网络𝜋的影响很大。在相
阅读全文
posted @ 2020-05-15 12:25 大浪淘沙、
阅读(188)
评论(0)
推荐(0)
公告