强化学习的基本概念

概率密度函数

期望（expect）

state s
action a
agent
policy Π(a|s)
reward r
state transition p(s'|s,a)
return（cumulative future reward 未来累计回报）
discounted return（γ 折扣回报）

U_t是未来获得的奖励总和，U_t是随机变量 它依赖于所有未来的随机动作

value function（价值函数）

action-value function （动作价值函数）

sate-value function（状态价值函数）

动作价值函数（Action-value function）：Q_Π，它跟策略函数（policy function）Π、状态s、动作a有关
如果使用policy Π，agent在状态（state）s时，做出动作（action）a是否明智，QΠ可以给动作a打分

状态价值函数（State-value function）：V_Π，跟策略函数（policy function）Π、状态s、动作a无关
如果使用policy Π，V_Π可以评价当前情况是好是坏，如果Π是固定的，状态s越好，V_Π数值越大
V_Π还能评价policy函数Π的好坏，如果Π越好，那V_Π的平均值[E_S（V_Π（S）]就越大

posted @ 2023-05-09 17:26 阿Qi早起了吗阅读(85) 评论(0) 收藏举报

刷新页面返回顶部

强化学习的基本概念

公告