02 2021 档案

Learning in Spiking Neural Networks by Reinforcement of Stochastic Synaptic Transmission
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Neuron, no. 6 (2003): 1063-1073 Summary 众所周知,化学突触传递是一个不可靠的过程,但这种不可靠的函数尚不清楚。在此,我考虑了一个假设,即大脑使用突触传递的随机性进行学习,类似于达尔文进化论利用基因突 阅读全文

posted @ 2021-02-27 20:03 穷酸秀才大草包 阅读(187) 评论(0) 推荐(0)

A reinforcement learning algorithm for spiking neural networks
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Published in D. Zaharie, D. Petcu, V. Negru, T. Jebelean, G. Ciobanu, A. Cicortas¸ A. Abraham and M. Paprzycki (eds.), 阅读全文

posted @ 2021-02-26 17:41 穷酸秀才大草包 阅读(265) 评论(0) 推荐(0)

强化学习第2版第4章笔记——动态规划
摘要:动态规划(DP)是一类优化方法,在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。对于强化学习问题,传统的DP算法的作用有限。其原因有二:一是完备的环境模型只是一个假设 阅读全文

posted @ 2021-02-03 15:50 穷酸秀才大草包 阅读(123) 评论(0) 推荐(0)

强化学习第2版第6章笔记——时序差分学习
摘要:在强化学习所有的思想中,时序差分(TD)学习无疑是最核心、最新颖的思想。时序差分学习结合了蒙特卡洛方法和动态规划方法的思想。 阅读全文

posted @ 2021-02-03 15:45 穷酸秀才大草包 阅读(138) 评论(0) 推荐(0)

强化学习第2版第5章笔记——蒙特卡洛方法
摘要:蒙特卡洛算法仅仅需要经验,即从真实或者模拟的环境交互中采样得到的状态、动作、收益的序列。从真实经验中进行学习是非常好的,因为它不需要关于环境动态变化规律的先验知识,却依然能够达到最优的行为。从模拟经验中学习也是同样有效的,尽管这是需要一个模型,但这个模型只需要能够生成状态转移的一些样本,而不需要像动 阅读全文

posted @ 2021-02-03 15:40 穷酸秀才大草包 阅读(159) 评论(0) 推荐(0)

强化学习第2版第3章笔记——有限马尔可夫决策过程
摘要:在这一章中,我们将正式介绍有限马尔可夫决策过程(有限MDP),这也是本书后面要试图解决的问题。这个问题既涉及"评估反馈"(如前面介绍的赌博机问题),又涉及"发散联想",即在不同情境下选择不同的动作。MDP是序列决策的经典形式化表达,其动作不仅影响当前的即时收益,还影响后续的情况(又称状态)以及未来的 阅读全文

posted @ 2021-02-01 21:22 穷酸秀才大草包 阅读(295) 评论(0) 推荐(0)

强化学习第2版第12章笔记——资格迹
摘要:资格迹机制的核心是一个短时记忆向量,资格迹zt ∈ Rd,以及与之相对的长时权重向量wt ∈ Rd。这个方向核心的思想是,当参数wt的一个分量参与计算并产生一个估计值时,对应的zt的分量会骤然升高,然后逐渐衰减。在迹归零前,如果发现了非零的时序差分误差,那么相应的wt的分量就可以学习。迹衰减参数λ  阅读全文

posted @ 2021-02-01 15:56 穷酸秀才大草包 阅读(1071) 评论(0) 推荐(0)

导航