强化学习框架RLlib教程001：Ray和RLlib介绍

从上图可以看出，最底层的分布式计算任务是由Ray引擎支撑的。倒数第二层表明RLlib是对特定的强化学习任务进行的抽象。第二层表示面向开发者，我们可以自定义算法。最顶层是RLlib对一些应用的支持，比如：可以让智能体在离线的数据、Gym或者Unit3d的环境中进行交互等等。

RLlib之于Ray就如同MLlib之于Spark。

返回目录

简单的代码风格

from ray import tune
from ray.rllib.agents.ppo import PPOTrainer
tune.run(PPOTrainer, config={"env": "CartPole-v0"})  # "log_level": "INFO" for verbose,
                                                     # "framework": "tfe" for tf-eager,
                                                     # "framework": "torch" for PyTorch

上面三行代码就可以训练一个玩平衡杆游戏的智能体。

接下来，我们将介绍RLlib中的三个关键概念:Policies, Samples, and Trainers.

返回目录

Policies

策略是RLlib中的核心概念。简而言之，policies是定义agent 如何在环境中工作的Python类。Rollout workers查询策略以确定agent 的动作。在gym 中，只有一个agent 和policy。在vector envs中，策略推理是针对多个代理的，在多代理中，可能有多个策略，每个策略控制一个或多个代理:

返回目录

Sample Batches

无论是在单个进程中运行还是在大型集群中运行，RLlib中的所有数据交换都是以批样的形式进行的。采样批次编码一个轨迹的一个或多个片段。通常，RLlib从rollout worker中收集大小为rollout_fragment_length的批，并将一个或多个批连接到大小为train_batch_size的批中，该批是SGD的输入。

一个典型的样例批处理如下所示。由于所有的值都保存在数组中，这允许有效的编码和传输的网络:

{ 'action_logp': np.ndarray((200,), dtype=float32, min=-0.701, max=-0.685, mean=-0.694),

'actions': np.ndarray((200,), dtype=int64, min=0.0, max=1.0, mean=0.495),

'dones': np.ndarray((200,), dtype=bool, min=0.0, max=1.0, mean=0.055),

'infos': np.ndarray((200,), dtype=object, head={}),

'new_obs': np.ndarray((200, 4), dtype=float32, min=-2.46, max=2.259, mean=0.018),

'obs': np.ndarray((200, 4), dtype=float32, min=-2.46, max=2.259, mean=0.016),

'rewards': np.ndarray((200,), dtype=float32, min=1.0, max=1.0, mean=1.0),

't': np.ndarray((200,), dtype=int64, min=0.0, max=34.0, mean=9.14)}

在多代理模式下，每个策略下的sample batches会被分别收集。

返回目录

Training