Exploration与Exploitation相关解释

RL智能体需要在不确定策略的探索(Exploration)和当前策略的开采(Exploitation)之间进行权衡。

 

智能体会选择贪婪参数,范围在(0,1)上,通常值接近0。

智能体会对当前状态s用的概率采取贪婪行为的概率采取随机行为

那就是智能体用的概率开采(Exploitation)当前最大值估计的值函数,用的概率进行平均地探索(Exploration)各个估计的值函数。

 

 

posted @ 2020-03-19 11:23  yingfengwu  阅读(1061)  评论(0)    收藏  举报