04 2020 档案
摘要:前面我们介绍了Q-learning算法的原理,现在我们就一步一步地用实际数值演示一下,给大家一个更直观的认识。 首先我们选择Gamma值的初值为0.8,agent的初始位置是房间1,前面显示的R矩阵不变,Q矩阵所有值都被初始化为0。 由于起始位置是房间1,所以我们先看R矩阵的第二行,其中有2个可能,
阅读全文
摘要:我们在这里使用一个简单的例子来介绍Q-learning的工作原理。下图是一个房间的俯视图,我们的智能体agent要通过非监督式学习来了解这个陌生的环境。图中的0到4分别对应一个房间,5对应的是建筑物周围的环境。如果房间之间有一个门,那么这2个房间就是直接相通的,否则就要通过其他房间相通。 下面的这个
阅读全文

浙公网安备 33010602011771号