Exploration与Exploitation相关解释

RL智能体需要在不确定策略的探索（Exploration）和当前策略的开采(Exploitation)之间进行权衡。

智能体会选择贪婪参数，范围在（0，1）上，通常值接近0。

智能体会对当前状态s用的概率采取贪婪行为，用的概率采取随机行为。

那就是智能体用的概率开采(Exploitation)当前最大值估计的值函数，用的概率进行平均地探索（Exploration）各个估计的值函数。

posted @ 2020-03-19 11:23 yingfengwu 阅读(1096) 评论(0) 收藏举报

刷新页面返回顶部