2020 年 2月 23 日随笔档案 - yingfengwu

2020年2月23日

摘要： Q函数：奖励和总奖励是在状态st采取行为at的奖励的期望和值函数：奖励和总奖励是在状态st下获得的奖励的期望和下面是值函数另外的定义，在at行为下采取策略的Q函数的期望是RL的目标函数，我理解为在s1状态下转移到其他状态的概率p(s1)的值函数的期望使用方法1：如果知道策略和，那么就可阅读全文

posted @ 2020-02-23 16:32 yingfengwu 阅读(1158) 评论(0) 推荐(0)

yingfengwu

The so-called excellent person is to let the world, because with me, be a little different.

公告