强化学习 - 随笔分类 - yingfengwu

期望求导

摘要：参考：https://zhuanlan.zhihu.com/p/91577331 阅读全文

posted @ 2020-07-22 16:36 yingfengwu 阅读(1478) 评论(0) 推荐(0)

摘要：Action Space（行为空间）定义：在所在环境中所有有效的行为的集合叫行为空间。一些环境是有离散的行为，对于agent来说是有限的行为，如Atari游戏、Alpha Go。其他的环境是有连续的行为，如在真实世界的机器人的控制角度等。 Policy（策略）定义：策略是一种被agent使用阅读全文

posted @ 2020-04-05 17:44 yingfengwu 阅读(1322) 评论(0) 推荐(0)

Temporal difference Learning

摘要：TD Learning(时间差分学习)是RL的核心。 Sutton（1988）提出TD通常对值函数的估计会涉及到学习方法。 Q-learning (Watkins and Dayan, 1992)和SARSA (Rummery and Niranjan, 1994)是时间差分控制方法。 TD lea 阅读全文

posted @ 2020-03-19 11:46 yingfengwu 阅读(292) 评论(0) 推荐(0)

Exploration与Exploitation相关解释

摘要：RL智能体需要在不确定策略的探索（Exploration）和当前策略的开采(Exploitation)之间进行权衡。智能体会选择贪婪参数，范围在（0，1）上，通常值接近0。智能体会对当前状态s用的概率采取贪婪行为，用的概率采取随机行为。那就是智能体用的概率开采(Exploitation)当前最阅读全文

posted @ 2020-03-19 11:23 yingfengwu 阅读(1081) 评论(0) 推荐(0)

贝尔曼方程

摘要：http://www.atyun.com/10331.html 阅读全文

posted @ 2020-03-19 09:55 yingfengwu 阅读(185) 评论(0) 推荐(0)

Policy-based Approach(基于策略的方法)

摘要：step 1:Neural Network as Actor step 2:goodness of function(训练一些Actor) 是一个序列，包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。是一个奖励和，全部episode从开始到结束的总reward。是某一设定好的参数获阅读全文

posted @ 2020-02-28 17:31 yingfengwu 阅读(429) 评论(0) 推荐(0)

Q函数和值函数

摘要：Q函数：奖励和总奖励是在状态st采取行为at的奖励的期望和值函数：奖励和总奖励是在状态st下获得的奖励的期望和下面是值函数另外的定义，在at行为下采取策略的Q函数的期望是RL的目标函数，我理解为在s1状态下转移到其他状态的概率p(s1)的值函数的期望使用方法1：如果知道策略和，那么就可阅读全文

posted @ 2020-02-23 16:32 yingfengwu 阅读(1165) 评论(0) 推荐(0)

强化学习第二版目录

摘要：原文书籍链接：http://incompleteideas.net/book/RLbook2018.pdf 0 介绍 part Ⅰ：表格型解决方法 1 多臂赌徒问题(Multi-armed Bandits) 2 有限马尔可夫决策过程(Finite Markov Decision Processes) 阅读全文

posted @ 2020-02-22 17:23 yingfengwu 阅读(581) 评论(0) 推荐(0)

强化学习算法类型

摘要：强化学习算法类型策略梯度：可直接区别以上的目标基于值：估计最优策略（不明确哪个是最优的策略情况下估计）的值函数和Q函数 Actor-critic（演员-评论家）：使用当前策略去估计值函数和Q函数来改进策略基于模型：估计转换模型，接着 1.让该模型去规划不明确的策略 2.让该模型去改进策略 3. 阅读全文

posted @ 2020-02-04 12:09 yingfengwu 阅读(629) 评论(0) 推荐(0)

强化学习的细分类

摘要：强化学习一般分为无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based RL) ·无模型的强化学习又分为Policy Optimization和Q-learning 使用Policy Optimization的算法：Policy Gradient、A2C/A3C、阅读全文

posted @ 2020-01-28 14:54 yingfengwu 阅读(2341) 评论(0) 推荐(0)

yingfengwu

The so-called excellent person is to let the world, because with me, be a little different.

随笔分类 - 强化学习

公告