随笔分类 -  Reinforcement Leaning

摘要:注册环境 import gym from gym import envs # 查看当前Gym注册了哪些环境 env_specs = gym.envs.registry.all() env_ids = [env_specs.id for env_specs in env_specs] print(en 阅读全文
posted @ 2021-03-16 20:39 米么裤 阅读(1344) 评论(0) 推荐(1)
摘要:强化学习的分类 环境 单智能体任务(single agent task)和多智能体任务(multi-agent task) 回合制任务(episodic task)和连续性任务(sequential task):对于回合制任务,有明确的开始状态和结束状态。而对于连续性任务,没有明确的开始结束条件; 阅读全文
posted @ 2021-03-16 20:15 米么裤 阅读(249) 评论(0) 推荐(0)
摘要:随机策略梯度定理 值函数方法在一些应用里发挥了重要的作用,但是也有一些局限: 值函数导向找到一个确定性的策略,但是通常最优策略是随机策略(sutton2000论述); 在值函数的估计中,一个小的变化就会导致动作是否被选择发生改变; Policy Gradient Theorm 时间 \(t\in\{ 阅读全文
posted @ 2020-11-03 22:36 米么裤 阅读(534) 评论(0) 推荐(0)
摘要:Experiments 我们首先考虑四个房间域中的导航任务(Sutton、Precup和Singh 1999)。我们的目标是评估一组完全自主学习的option从环境的突然变化中恢复过来的能力。(Sutton,Precup,and Singh 1999)对一组预先指定的选项提出了一个类似的实验;我们的 阅读全文
posted @ 2020-07-28 12:37 米么裤 阅读(839) 评论(1) 推荐(0)
摘要:The option-critic architecture论文翻译与理解 阅读全文
posted @ 2020-07-24 23:34 米么裤 阅读(1809) 评论(0) 推荐(0)