摘要: 效果不太好 稀疏奖励中的好奇心 curiosity模型中,在原来DQN的基础上,建立了Network1,用于在𝑎_𝑡和𝑠_𝑡的条件下预测输出的下一个状态,与实际在MDP的一个片段上输出的,下一个状态之间求差,将差作为奖励r的一部分,以鼓励探索不同的状态。 引入了Network2,将输入的两个 阅读全文
posted @ 2020-05-31 16:57 大浪淘沙、 阅读(281) 评论(0) 推荐(0)