摘要: 对于之前提到的DQN模型, 损失函数使用的 Q(state) = reward + Q(nextState)max Q(state)由训练网络生成, Q(nextState)max由目标网络生成 这种损失函数会存在问题,即当Q(nextState)max总是大于0时,那么Q(state)总是在不停的 阅读全文
posted @ 2022-09-04 21:41 python我的最爱 阅读(966) 评论(0) 推荐(0) 编辑
摘要: 1.DQN的动作选择策略是epsilon-贪婪策略 (1)当随机值小于阈值时, 使用随机的action (2)当随机值大于阈值时, 使用网络输出的最大Q值的方向 2.DQN的损失函数计算 (1)输入state, 生成最大方向的action (2)将action输入到环境中, 获得next_state 阅读全文
posted @ 2022-09-04 17:29 python我的最爱 阅读(646) 评论(0) 推荐(0) 编辑