摘要:
1、神经网络基础问题 (1)Backpropagation 反向传播运用的是链式求导的基本思想,首先前向传播求出所有节点的输出值: 接下来计算整体损失函数: 再求解每层的梯度,用于更新参数,一般的求梯度形式如下: 是激活函数的梯度。 (2)梯度消失、梯度爆炸 对激活函数进行求导,如果此部分大于1,那 阅读全文
随笔档案-2018年08月
李宏毅深度强化学习(国语)课程(2018) 简易记录
2018-08-09 14:41 by Time皇族, 1127 阅读, 收藏,
摘要:
1 Policy Gradient Policy Gradient 算法的简要概括: Implementation: 2 Typical Q-Learning Algorithm 经典的Q-Learning算法概括: 阅读全文
浙公网安备 33010602011771号