当前标签: 强化学习

 
强化学习(十九) AlphaGo Zero强化学习原理 刘建平Pinard 2019-03-27 20:11 阅读:1861 评论:7  
强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS) 刘建平Pinard 2019-03-04 17:09 阅读:2316 评论:2  
强化学习(十七) 基于模型的强化学习与Dyna算法框架 刘建平Pinard 2019-02-15 20:22 阅读:1534 评论:9  
强化学习(十六) 深度确定性策略梯度(DDPG) 刘建平Pinard 2019-02-01 19:42 阅读:2509 评论:36  
强化学习(十五) A3C 刘建平Pinard 2019-01-29 18:09 阅读:2219 评论:12  
强化学习(十四) Actor-Critic 刘建平Pinard 2019-01-15 17:46 阅读:3527 评论:14  
强化学习(十三) 策略梯度(Policy Gradient) 刘建平Pinard 2018-12-18 18:04 阅读:7169 评论:41  
强化学习(十二) Dueling DQN 刘建平Pinard 2018-11-08 14:04 阅读:3681 评论:14  
强化学习(十一) Prioritized Replay DQN 刘建平Pinard 2018-10-16 16:46 阅读:4605 评论:9  
强化学习(十)Double DQN (DDQN) 刘建平Pinard 2018-10-12 16:52 阅读:7084 评论:10  
强化学习(九)Deep Q-Learning进阶之Nature DQN 刘建平Pinard 2018-10-08 20:40 阅读:4825 评论:9  
强化学习(八)价值函数的近似表示与Deep Q-Learning 刘建平Pinard 2018-09-28 16:49 阅读:6469 评论:19  
强化学习(六)时序差分在线控制算法SARSA 刘建平Pinard 2018-09-09 19:30 阅读:4259 评论:20  
强化学习(五)用时序差分法(TD)求解 刘建平Pinard 2018-08-24 18:23 阅读:5968 评论:31  
强化学习(四)用蒙特卡罗法(MC)求解 刘建平Pinard 2018-08-17 18:04 阅读:5699 评论:21  
强化学习(三)用动态规划(DP)求解 刘建平Pinard 2018-08-12 20:36 阅读:5679 评论:19  
强化学习(二)马尔科夫决策过程(MDP) 刘建平Pinard 2018-08-05 18:09 阅读:10074 评论:26  
强化学习(一)模型基础 刘建平Pinard 2018-07-29 18:53 阅读:15593 评论:16