摘要: 基于价值Value的强化学习算法,例如Q-Learning,其基本思想为根据当前的状态,计算采取每个动作的价值,然后根据贪心策略去选择相应的动作。这种方法由于受限于动作和状态的数量,即Q表的大小,并不适用于机器人系统。这是因为机器人系统的执行器是输出连续动作的。 1. 什么是Policy Gradi 阅读全文
posted @ 2019-08-20 16:06 洗个痛快澡吧 阅读(441) 评论(0) 推荐(0)
摘要: 本文介绍如何将传统的的前馈网络训练所得的链接权至转化到脉冲神经网络。 Spiking Network Conversion 脉冲神经网络转换 一旦网络中的ReLU替换为IF Neuron,分类精度会有一定损失,损失产生原因如下: Experiment Setup 首先,讲MNIST归一化处理weig 阅读全文
posted @ 2017-05-03 16:22 洗个痛快澡吧 阅读(347) 评论(0) 推荐(0)