摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10159331.html 特别感谢:本文的三幅图皆来自莫凡的教程 https://morvanzhou.github.io/ pandas是基于numpy的,但是两者之间的操作有区别,故在实现上 阅读全文
posted @ 2018-12-21 22:31 罗兵 阅读(1085) 评论(0) 推荐(0) 编辑
摘要:原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 <!-- flowchart 箭头图标 勿删 --> DQN(Deep Q-Learning)是将深度学习deeplearning与强化学习reinforcementlea 阅读全文
posted @ 2018-12-21 12:41 罗兵 阅读(9454) 评论(0) 推荐(0) 编辑
摘要:原文地址:https://www.hhyz.me/2018/08/13/2018-08-13-RL2/ 强化学习(RL,基于MDP)的求解policy的方式一般分为三种: Value <—critic Policy <—actor Value + Policy <— Actor-critic 策略梯 阅读全文
posted @ 2018-12-21 11:53 罗兵 阅读(604) 评论(0) 推荐(0) 编辑
摘要:原文地址:https://www.hhyz.me/2018/08/05/2018-08-05-RL/ 1. 前言 虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端就是DeepMind在NIPS 2013上发表的 Playing Atari with Deep Reinforce 阅读全文
posted @ 2018-12-21 11:40 罗兵 阅读(2396) 评论(0) 推荐(1) 编辑
摘要:原文地址:https://www.hhyz.me/2018/08/08/2018-08-08-AlphaGO-Zero/> 1. 概述 简单来说,AlphaGo Zero 的训练可以分为三个同时进行的阶段: 自我对战 再训练网络 评估网络 在自我对战阶段, AlphaGo Zero 创建一个训练集合 阅读全文
posted @ 2018-12-21 11:29 罗兵 阅读(2657) 评论(0) 推荐(1) 编辑