06 2019 档案

几句话总结一个算法之RNN、LSTM和GRU
摘要:RNN 一般神经网络隐层的计算是h=g(w * x),其中g是激活函数,相比于一般神经网络,RNN需要考虑之前序列的信息,因此它的隐藏h的计算除了当前输入还要考虑上一个状态的隐藏,h=g(w*x+w'*h'),其中h'是上一次计算的隐层,可见信息传递是通过隐层完成的。 LSTM 有上面普通RNN可以 阅读全文

posted @ 2019-06-25 12:01 daniel-D 阅读(1258) 评论(0) 推荐(0)

几句话总结一个算法之DQN
摘要:DQN利用深度学习对Q-learning的一个扩展,回顾上篇文章,Q-learning的核心在于Q(s,a)的建模。如果状态s非常复杂,很难通过一张表来存储所有的状态。 深度学习正好可以自动提取s的特征,所以我们只需要对Q(s,a)建立一个深度学习网络 但是s可能是一个极高维度的向量,a可能只低维度 阅读全文

posted @ 2019-06-11 17:30 daniel-D 阅读(764) 评论(0) 推荐(0)

几句话总结一个算法之Q-Learning与Sarsa
摘要:与Policy Gradients的不同之处在于,这两个算法评估某个状态s执行某个动作a的期望奖励,即Q(s,a) 与Policy Gradients的不同之处在于,这两个算法评估某个状态s执行某个动作a的期望奖励,即Q(s,a) Q(s,a) 有两种方法计算方法,第一种直接查表或者模型预估,Q(s 阅读全文

posted @ 2019-06-11 12:07 daniel-D 阅读(769) 评论(0) 推荐(0)

几句话总结一个算法之Policy Gradients
摘要:强化学习与监督学习的区别在于,监督学习的每条样本都有一个独立的label,而强化学习的奖励(label)是有延后性,往往需要等这个回合结束才知道输赢 Policy Gradients(PG)计算某个状态下所有策略的分布概率,类似于经典分类问题给每个类别预测一个概率,好的PG应该给优良的策略分配较高的 阅读全文

posted @ 2019-06-11 10:49 daniel-D 阅读(763) 评论(0) 推荐(0)

导航