Introduction of RL(DRL)

What is RL?

Alpha Go
在棋谱中记录的是不是最优答案，我们如何获得呢？
supervise learing做不到（CNN可以得到目前棋局局势）
RL--人类也不知道答案是什么

Machine Learing ~ Looking for Function
ML has three steps:
1.function with unknown
2.define loss from training data
3.optimization

Observation是state
Actor是policy pai 一个决策函数
Action就是函数输出
Environment更像你的对手

本质的还是分类

trajectory:轨迹

sample：抽样，说明在Network里，有至少一个层是每次输出不一样的（引入随机)

Policy descent

假设我们知道在s情况下做什么行动最好（a_hat已知)(实际中这些资料都是要通过训练得到的，初始化让所有动作都能进行，便于更新）

相当于a_hat是label了，最大/最小化交叉熵，似乎回到了supervised learning

我们要找到在s环境做出a行为的奖赏，然后最大化
Reward delay：现在的行为在之后才会得到reward

Discount factor 伽马: 从a1得到rn很远，不能保证得到，所以距离越远的奖励衰减越大

奖赏是相对的，如果奖赏都是正数的话全部鼓励，所以引入标准化处理（保证正负都有）baseline

收集资料在loop里面，每次训练都要重新收集资料
On policy & Off policy -> PPO