2020 年 5月 31 日随笔档案 - 大浪淘沙、

2020年5月31日

摘要：效果不太好稀疏奖励中的好奇心 curiosity模型中，在原来DQN的基础上，建立了Network1，用于在𝑎_𝑡和𝑠_𝑡的条件下预测输出的下一个状态，与实际在MDP的一个片段上输出的，下一个状态之间求差，将差作为奖励r的一部分，以鼓励探索不同的状态。引入了Network2，将输入的两个阅读全文

posted @ 2020-05-31 16:57 大浪淘沙、阅读(283) 评论(0) 推荐(0)

大浪淘沙、

不积跬步无以至千里，不积小流无以成江海，骐骥一跃不能十步，驽马十驾功在不舍。

公告