Reinforcement Leaning - 随笔分类 - 米么裤

OpenAI Gym的一些基础使用方法

摘要：注册环境 import gym from gym import envs # 查看当前Gym注册了哪些环境 env_specs = gym.envs.registry.all() env_ids = [env_specs.id for env_specs in env_specs] print(en 阅读全文

posted @ 2021-03-16 20:39 米么裤阅读(1360) 评论(0) 推荐(1)

强化学习的一些基础概念

摘要：强化学习的分类环境单智能体任务（single agent task）和多智能体任务（multi-agent task）回合制任务（episodic task）和连续性任务（sequential task）：对于回合制任务，有明确的开始状态和结束状态。而对于连续性任务，没有明确的开始结束条件；阅读全文

posted @ 2021-03-16 20:15 米么裤阅读(264) 评论(0) 推荐(0)

随机策略梯度定理

摘要：随机策略梯度定理值函数方法在一些应用里发挥了重要的作用，但是也有一些局限：值函数导向找到一个确定性的策略，但是通常最优策略是随机策略（sutton2000论述）；在值函数的估计中，一个小的变化就会导致动作是否被选择发生改变； Policy Gradient Theorm 时间 \(t\in\{ 阅读全文

posted @ 2020-11-03 22:36 米么裤阅读(560) 评论(0) 推荐(0)

The option-critic architecture（下）

摘要：Experiments 我们首先考虑四个房间域中的导航任务（Sutton、Precup和Singh 1999）。我们的目标是评估一组完全自主学习的option从环境的突然变化中恢复过来的能力。（Sutton，Precup，and Singh 1999）对一组预先指定的选项提出了一个类似的实验；我们的阅读全文

posted @ 2020-07-28 12:37 米么裤阅读(850) 评论(1) 推荐(0)

The option-critic architecture（上）

摘要：The option-critic architecture论文翻译与理解阅读全文

posted @ 2020-07-24 23:34 米么裤阅读(1827) 评论(0) 推荐(0)

米么裤

随笔分类 - Reinforcement Leaning

公告