摘要:
**AlphaGo ** 出处: 围棋游戏用人工智能语言解释: 围棋游戏是一个19*19方格,包含361个点的规格 状态参数包括了 黑棋、白棋、格子编号 状态s可以用一个 19 * 19 * 2的tensor分别表示黑白棋的位置,有则为1,否则为0 但实际上AlphaGo用的是 19 * 19 * 阅读全文
posted @ 2021-07-22 14:50
乖张❤
阅读(268)
评论(0)
推荐(1)
摘要:
Actor—Critic Methods (actor可以看成策略网络 critic可以看成价值网络 两者关系可以比较运动员和打分的裁判员,关系可以如下: 回顾之前价值学习和策略学习的内容,带入到actor-critic方法中,状态价值函数可以有下图中的改写: 构造策略神经网络:(见P3 构造价值神 阅读全文
posted @ 2021-07-22 14:46
乖张❤
阅读(94)
评论(0)
推荐(0)
摘要:
Policy Function Approximation 策略函数 策略函数记做 π(a|s) 策略函数的输入是当前状态S 输出是一个概率分布,给每个动作一个概率值 如何得到这么一个策略函数,则需要构建一个策略神经网络,通过学习得到这么一个近似函数,还是以马里奥为例(包含左右上 三个动作,也就是三 阅读全文
posted @ 2021-07-22 14:41
乖张❤
阅读(121)
评论(0)
推荐(0)
摘要:
Deep Q-Network(DQN) \[ 对于一个游戏来说,我们的目标是为了赢得游戏(也就相当于是要去找到一个最大的总和奖励\\那么现在的目标有了,问题就是如果我们知道一个Q^*函数,应该如何做决策,也就是如何找到\\最优的动作\\ 但实际上,我们在开始是不知道Q^*的 因此我们的解决方法是 D 阅读全文
posted @ 2021-07-22 14:34
乖张❤
阅读(70)
评论(0)
推荐(0)
浙公网安备 33010602011771号