Q函数和值函数

Q函数:奖励和

总奖励是在状态st采取行为at的奖励的期望和

 

 

 

 

值函数:奖励和

总奖励是在状态st下获得的奖励的期望和

 

下面是值函数另外的定义,在at行为下采取策略的Q函数的期望

 

是RL的目标函数,我理解为在s1状态下转移到其他状态的概率p(s1)的值函数的期望

 

 

使用

方法1:如果知道策略,那么就可以改进策略

如果,则设置策略

 

 

该策略至少和之前的策略一样好,甚至更好

 

 

 

 

 

方法2:计算策略去提升好的行为a的概率:

如果,则a比平均值更好。然后就改进策略提高行为a的概率

 

posted @ 2020-02-23 16:32  yingfengwu  阅读(1158)  评论(0)    收藏  举报