摘要: Q函数:奖励和 总奖励是在状态st采取行为at的奖励的期望和 值函数:奖励和 总奖励是在状态st下获得的奖励的期望和 下面是值函数另外的定义,在at行为下采取策略的Q函数的期望 是RL的目标函数,我理解为在s1状态下转移到其他状态的概率p(s1)的值函数的期望 使用 方法1:如果知道策略和,那么就可 阅读全文
posted @ 2020-02-23 16:32 yingfengwu 阅读(1158) 评论(0) 推荐(0)