Exploration与Exploitation相关解释
RL智能体需要在不确定策略的探索(Exploration)和当前策略的开采(Exploitation)之间进行权衡。
智能体会选择贪婪参数
,范围在(0,1)上,通常值接近0。
智能体会对当前状态s用
的概率采取贪婪行为
,用
的概率采取随机行为。
那就是智能体用
的概率开采(Exploitation)当前最大值估计的值函数,用
的概率进行平均地探索(Exploration)各个估计的值函数。
RL智能体需要在不确定策略的探索(Exploration)和当前策略的开采(Exploitation)之间进行权衡。
智能体会选择贪婪参数
,范围在(0,1)上,通常值接近0。
智能体会对当前状态s用
的概率采取贪婪行为
,用
的概率采取随机行为。
那就是智能体用
的概率开采(Exploitation)当前最大值估计的值函数,用
的概率进行平均地探索(Exploration)各个估计的值函数。