Q函数和值函数

Q函数：奖励和

总奖励是在状态s_t采取行为a_t的奖励的期望和

值函数：奖励和

总奖励是在状态s_t下获得的奖励的期望和

下面是值函数另外的定义，在a_t行为下采取策略的Q函数的期望

是RL的目标函数，我理解为在s1状态下转移到其他状态的概率p(s1)的值函数的期望

使用

方法1：如果知道策略和，那么就可以改进策略：

如果，则设置策略

该策略至少和之前的策略一样好，甚至更好

方法2：计算策略去提升好的行为a的概率：

如果，则a比平均值更好。然后就改进策略提高行为a的概率

posted @ 2020-02-23 16:32 yingfengwu 阅读(1168) 评论(0) 收藏举报

刷新页面返回顶部

yingfengwu