会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大浪淘沙、
不积跬步无以至千里,不积小流无以成江海,骐骥一跃不能十步,驽马十驾功在不舍。
博客园
首页
新随笔
联系
订阅
管理
2020年5月31日
李宏毅的强化学习视频用于梳理翻阅(4)奖励、模仿
摘要: 效果不太好 稀疏奖励中的好奇心 curiosity模型中,在原来DQN的基础上,建立了Network1,用于在𝑎_𝑡和𝑠_𝑡的条件下预测输出的下一个状态,与实际在MDP的一个片段上输出的,下一个状态之间求差,将差作为奖励r的一部分,以鼓励探索不同的状态。 引入了Network2,将输入的两个
阅读全文
posted @ 2020-05-31 16:57 大浪淘沙、
阅读(281)
评论(0)
推荐(0)
公告