随笔档案「2020年11月」 - my灬king

DDPG算法

摘要：关键词离散动作与连续动作是相对的概念，一个是可数的，一个是不可数的。在 CartPole 环境中，可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中，小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中，游戏有 6 个按键的动作可以输出。但在实际情况中，经常阅读全文

posted @ 2020-11-08 19:17 my灬king 阅读(2909) 评论(0) 推荐(0)

稀疏奖励及模仿学习

摘要：一、稀疏奖励实际上用 reinforcement learning learn agent 的时候，多数的时候 agent 都是没有办法得到 reward 的。那在没有办法得到 reward 的情况下，训练 agent 是非常困难的。如果环境中的 reward 非常 sparse，reinforc 阅读全文

posted @ 2020-11-05 23:32 my灬king 阅读(290) 评论(0) 推荐(0)

Q学习

摘要：1、基本概念 DQN(Deep Q-Network)：基于深度学习的Q-learning算法，其结合了 Value Function Approximation（价值函数近似）与神经网络技术，并采用了目标网络（Target Network）和经历回放（Experience Replay）的方法进行阅读全文

posted @ 2020-11-03 23:47 my灬king 阅读(950) 评论(0) 推荐(0)

my灬king

公告

11 2020 档案

DDPG算法

稀疏奖励及模仿学习

Q学习