随笔分类 -  深度学习

摘要:在强化学习中,「探索-利用」问题是非常重要的问题。具体来说,根据上面的定义,我们会尽可能地让机器人在每次选择最优的决策,来最大化长期奖励。但是这样做有如下的弊端: 一、在初步的学习中,我们的 Q 值会不准确,如果在这个时候都按照 Q 值来选择,那么会造成错误。 二、学习一段时间后,机器人的路线会相对 阅读全文
posted @ 2021-03-10 17:02 白雪儿 阅读(110) 评论(0) 推荐(0)