学习强化学习之前需要掌握的3种技能

作者|Nathan Lambert
编译|VK
来源|Towards Data Science

现代强化学习几乎完全集中在深度强化学习上。深度强化学习中的“深”一词意味着在算法的核心方面使用神经网络。神经网络在学习过程中进行一些高维近似。话虽如此，该模型并不需要具有许多层和特征，这是一个普遍的误解，深层暗示了许多层。

几乎所有的课程和教程都假定你可以微调简单的神经网络以近似状态值或创建最终策略。从历史上看，这些模型对以下所有训练参数高度敏感：学习率，批量大小，模型参数，数据规范化等等。RL学习中有许多问题，最好的方法是学习监督学习，然后让AutoML工具为你完成工作。

从学习一些代码开始，理解代码所有内容，然后重新构建。这样做几次，你会学的很好。监督学习也是一项技能，在接下来的十年中，它将转化为计算机科学的大多数领域，因此请紧跟其后。

RL是策略空间中的一个搜索问题。近年来影响最大的论文都是从古老的搜索问题中得到了严重的启发。让我们来看看最近在RL最有影响力的三篇论文：

迄今为止最主流的强化学习结果是：Deepmind掌握了许多游戏，并进行了大规模强化学习。最近是利用规划网络来探索的未来行动(https://deepmind.com/research/publications/investigation-model-free-planning)
基于模型的RL的研究现状：基于模型的策略优化（MBPO）。MBPO正在状态作用空间的附近区域进行搜索，以获得更完整的知识。这种模拟的知识就像是一种简单的探索。(https://arxiv.org/abs/1906.08253)
无模型的RL研究现状：Soft Actor-critic (SAC)。SAC以有效勘探和高峰值性能相结合而闻名。它通过最大化策略上的熵项来实现这一点。作为一个搜索问题，直接策略搜索是RL最关键的方面。

你可以在加州大学伯克利分校和麻省理工学院的人工智能课程学习，试试做一两个项目挑战自己。