摘要: 今日内容 完成概率图模型以及强化学习的重点复习 \(\epsilon\)-贪心:基于一个概率来对探索和利用进行折中:每次尝试时,以$\epsilon$的概率进行探索,以均匀概率随机选取一个摇臂,以1-$\epsilon$的概率进行利用,即选择当前平均奖赏最高的摇臂 比如图上有五个摇臂,有100次摇臂 阅读全文
posted @ 2021-10-05 21:41 闲伯 阅读(41) 评论(0) 推荐(0)