增强学习的基本概念(2)

对于增强学习的控制问题,有两个著名的基础算法:Sarsa、Q-Learning

(1) Sarsa 算法流程:

   对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0

  迭代每一训练集episode:

    初始化状态 S

    根据策略Q,按照当前的状态 S,选择动作 A(如:小概率-贪婪算法)

    迭代训练集的每一步:

      采取动作A, 观察奖励值 R 和下一步状态 S’

      根据策略Q,按照下一状态 S’,选择动作 A‘(如:小概率-贪婪算法)

      Q(S,A) := Q(S,A) + α[R+γQ(S',A') - Q(S,A)]

      S := S'

      A := A'

    直到状态S 结束

 

(2) Q-Learning 算法流程:

   对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0

  迭代每一训练集 episode:

    初始化状态 S

    迭代训练集的每一步 step:

      根据策略Q,按照下一状态 S,选择动作 A(如:小概率-贪婪算法)

      采取动作A, 观察奖励值 R 和下一步状态 S’

      Q(S,A) := Q(S,A) + α[R+γmax(Q(S',a)) - Q(S,A)]

      S := S'

    直到状态S 结束

posted @ 2017-09-17 09:34  swagger2016  阅读(154)  评论(0)    收藏  举报