随笔档案「2019年6月」 - daniel-D

几句话总结一个算法之RNN、LSTM和GRU

摘要：RNN 一般神经网络隐层的计算是h=g(w * x)，其中g是激活函数，相比于一般神经网络，RNN需要考虑之前序列的信息，因此它的隐藏h的计算除了当前输入还要考虑上一个状态的隐藏，h=g(w*x+w'*h')，其中h'是上一次计算的隐层，可见信息传递是通过隐层完成的。 LSTM 有上面普通RNN可以阅读全文

posted @ 2019-06-25 12:01 daniel-D 阅读(1258) 评论(0) 推荐(0)

几句话总结一个算法之DQN

摘要：DQN利用深度学习对Q-learning的一个扩展，回顾上篇文章，Q-learning的核心在于Q(s,a)的建模。如果状态s非常复杂，很难通过一张表来存储所有的状态。深度学习正好可以自动提取s的特征，所以我们只需要对Q(s,a)建立一个深度学习网络但是s可能是一个极高维度的向量，a可能只低维度阅读全文

posted @ 2019-06-11 17:30 daniel-D 阅读(764) 评论(0) 推荐(0)

几句话总结一个算法之Q-Learning与Sarsa

摘要：与Policy Gradients的不同之处在于，这两个算法评估某个状态s执行某个动作a的期望奖励，即Q(s,a) 与Policy Gradients的不同之处在于，这两个算法评估某个状态s执行某个动作a的期望奖励，即Q(s,a) Q(s,a) 有两种方法计算方法，第一种直接查表或者模型预估，Q(s 阅读全文

posted @ 2019-06-11 12:07 daniel-D 阅读(769) 评论(0) 推荐(0)

几句话总结一个算法之Policy Gradients

摘要：强化学习与监督学习的区别在于，监督学习的每条样本都有一个独立的label，而强化学习的奖励(label)是有延后性，往往需要等这个回合结束才知道输赢 Policy Gradients（PG）计算某个状态下所有策略的分布概率，类似于经典分类问题给每个类别预测一个概率，好的PG应该给优良的策略分配较高的阅读全文

posted @ 2019-06-11 10:49 daniel-D 阅读(763) 评论(0) 推荐(0)

Danifree's blog

06 2019 档案

几句话总结一个算法之RNN、LSTM和GRU

几句话总结一个算法之DQN

几句话总结一个算法之Q-Learning与Sarsa

几句话总结一个算法之Policy Gradients

公告

导航