my灬king - 博客园

公告

2020年11月8日

DDPG算法

摘要：关键词离散动作与连续动作是相对的概念，一个是可数的，一个是不可数的。在 CartPole 环境中，可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中，小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中，游戏有 6 个按键的动作可以输出。但在实际情况中，经常阅读全文

posted @ 2020-11-08 19:17 my灬king 阅读(2894) 评论(0) 推荐(0)

2020年11月5日

稀疏奖励及模仿学习

摘要：一、稀疏奖励实际上用 reinforcement learning learn agent 的时候，多数的时候 agent 都是没有办法得到 reward 的。那在没有办法得到 reward 的情况下，训练 agent 是非常困难的。如果环境中的 reward 非常 sparse，reinforc 阅读全文

posted @ 2020-11-05 23:32 my灬king 阅读(272) 评论(0) 推荐(0)

2020年10月29日

强化学习笔记

摘要：策略梯度 1、基本概念policy（策略）：每一个actor中会有对应的策略，这个策略决定了actor的行为。具体来说，Policy 就是给一个外界的输入，然后它会输出 actor 现在应该要执行的行为。一般地，我们将policy写成 π。 Return（回报）：一个回合（Episode）或者试阅读全文

posted @ 2020-10-29 23:11 my灬king 阅读(314) 评论(0) 推荐(0)

2020年10月23日

马尔可夫决策过程

摘要： 1 Keywords 马尔可夫性质(Markov Property): 如果某一个过程未来的转移跟过去是无关，只由现在的状态决定，那么其满足马尔可夫性质。换句话说，一个状态的下一个状态只取决于它当前状态，而跟它当前状态之前的状态都没有关系。马尔可夫链(Markov Chain): 概率论和数理统计阅读全文

posted @ 2020-10-23 17:43 my灬king 阅读(665) 评论(0) 推荐(0)