2018 年 12月 21 日随笔档案 - 罗兵

2018年12月21日

【强化学习】用pandas 与 numpy 分别实现 q-learning, saras, saras(lambda)算法

摘要：本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10159331.html 特别感谢：本文的三幅图皆来自莫凡的教程 https://morvanzhou.github.io/ pandas是基于numpy的，但是两者之间的操作有区别，故在实现上阅读全文

posted @ 2018-12-21 22:31 罗兵阅读(1580) 评论(0) 推荐(0)

【转】【强化学习】Deep Q Network(DQN)算法详解

摘要：原文地址：https://blog.csdn.net/qq_30615903/article/details/80744083  DQN（Deep Q-Learning）是将深度学习deeplearning与强化学习reinforcementlea 阅读全文

posted @ 2018-12-21 12:41 罗兵阅读(21562) 评论(0) 推荐(1)

【转】强化学习（二）

摘要：原文地址：https://www.hhyz.me/2018/08/13/2018-08-13-RL2/ 强化学习（RL，基于MDP）的求解policy的方式一般分为三种： Value <—critic Policy <—actor Value + Policy <— Actor-critic 策略梯阅读全文

posted @ 2018-12-21 11:53 罗兵阅读(857) 评论(0) 推荐(0)

【转】强化学习（一）Deep Q-Network

摘要：原文地址：https://www.hhyz.me/2018/08/05/2018-08-05-RL/ 1. 前言虽然将深度学习和增强学习结合的想法在几年前就有人尝试，但真正成功的开端就是DeepMind在NIPS 2013上发表的 Playing Atari with Deep Reinforce 阅读全文

posted @ 2018-12-21 11:40 罗兵阅读(3403) 评论(0) 推荐(1)

【转】AlphaGO Zero 原理

摘要：原文地址：https://www.hhyz.me/2018/08/08/2018-08-08-AlphaGO-Zero/> 1. 概述简单来说，AlphaGo Zero 的训练可以分为三个同时进行的阶段：自我对战再训练网络评估网络在自我对战阶段， AlphaGo Zero 创建一个训练集合阅读全文

posted @ 2018-12-21 11:29 罗兵阅读(4293) 评论(0) 推荐(1)

公告