2020 年 2月 5 日随笔档案 - dynmi

2020年2月5日

摘要：马尔可夫决策过程MDP，是强化学习的基础。 MDP <S，A，P，R，γ> AGENT STATE ENV REWARD ，由ENV给出。agent处于状态s下，采取action之后离开状态获得一个reward。即f：S x A >R 所有强化学习问题解决的目标都可以描述成最大化累积奖励。All g 阅读全文

posted @ 2020-02-05 14:11 dynmi 阅读(348) 评论(0) 推荐(0) 编辑

Haris Wang's Blog