摘要:
RL回顾首先先来回顾一下强化学习问题中,环境Env 和 代理Agent 分别承担的角色和作用。RL组成要素是Agent、Env代理和环境 分别承担的作用 Agent: 由Policy 和 RL_Algorithm构成,这种对RL_algorithm的算法理解比较宽泛policy负责将observation映射为actionRL_Algorithm负责优化policy,具有学习和搜索(规划)的能力 ... 阅读全文
posted @ 2020-09-03 11:40
Tolshao
阅读(965)
评论(0)
推荐(0)

浙公网安备 33010602011771号