随笔分类 - 深度学习

Q-learning学习笔记01

摘要：在强化学习中，「探索-利用」问题是非常重要的问题。具体来说，根据上面的定义，我们会尽可能地让机器人在每次选择最优的决策，来最大化长期奖励。但是这样做有如下的弊端：一、在初步的学习中，我们的 Q 值会不准确，如果在这个时候都按照 Q 值来选择，那么会造成错误。二、学习一段时间后，机器人的路线会相对阅读全文

posted @ 2021-03-10 17:02 白雪儿阅读(126) 评论(0) 推荐(0)

白雪儿

the crystal snow flakes dance in the air.

随笔分类 - 深度学习

公告