强化学习

基本的流程图

机器通过观测环境的状态来进行考虑做出哪一些相应的action，然后做出的action又会相应的影响环境的状态，影响环境的状态之后环境又会反馈给机器，使其得知当前的影响是正向的还是负向的。

强化学习相对于监督学习的优势。强化学习主要是用于在环境很少能给出reward的情况下（我们人很难知道围棋下哪一步是正确的，也就是很难给数据打标签）

一次训练的过程成为一次episode，目标是在一次episode内尽可能多的最大化reward

用神经网络来做反应器，训练好神经网络来给出下一步做的每种动作的相应的概率

整体的过程

θ是模型(决定该哪些动作)的参数

T1是第一次训练,在这一次训练中，它会在state(1)-state(t)的情况下相应的根据概率来选择来做出action(1)-action(t),相应的reward也会被计算出来。在收集完这n次训练后，会根据公式来对这n次reward的值进行计算然后进行梯度下降，然后更新模型的参数。更新梯度的公式在下面。

τ是一次训练的流程，τn就是训练了n次。

公式是将这训练了n次得到的reward结果乘以log(这次训练出现的概率值)进行求期望 = 将这训练了n次得到的reward结果乘以log(这次训练中所有的在situation(t)下做出action(t)的概率的和)进行求期望

如果这次训练得出的reword是积极的，应该增加这次训练里面在situation下的action的几率，反之亦然

Critic判决准则，判决评价现在是多好还是多坏

判决准则不是单独存在的（它需要与一个假设的actor动作器进行绑定），环境输入为s。Vπ(s)的意思是，在输入为s的情况下假设使用π作为当前环境而做出的下一步的动作器而最终产生的判决值。Vπ(s)就是计算出来的判决值。比如在左边的那一副游戏的途中，飞机有护罩而且还能打好多的敌人，所以判决的值是很大的很好的，再看右边的图，飞机的护盾消失，处于劣势，所以判决的值不好很小