上一页 1 ··· 238 239 240 241 242 243 244 245 246 ··· 272 下一页

2019年4月11日

摘要: 原文地址: https://www.leiphone.com/news/201904/xpEfrUZkgvgYh8Pu.html 雷锋网 导语:几个参考建议 本文作者:黄善清 2019-04-10 14:18 雷锋网 AI 科技评论:国内博士一念就是 4 到 6 年,在这段时间里,接触最频繁的博士导 阅读全文
posted @ 2019-04-11 13:40 Angry_Panda 阅读(1495) 评论(1) 推荐(1)

2019年4月10日

摘要: 原文地址: https://www.cnblogs.com/pinard/p/9797695.html 在强化学习(十)Double DQN (DDQN)中,我们讲到了DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差。今 阅读全文
posted @ 2019-04-10 09:56 Angry_Panda 阅读(984) 评论(0) 推荐(0)

2019年4月9日

摘要: 原文地址: https://www.cnblogs.com/pinard/p/9778063.html 在强化学习(九)Deep Q-Learning进阶之Nature DQN中,我们讨论了Nature DQN的算法流程,它通过使用两个相同的神经网络,以解决数据样本和网络训练之前的相关性。但是还是有 阅读全文
posted @ 2019-04-09 22:30 Angry_Panda 阅读(1712) 评论(0) 推荐(0)
摘要: 原文地址: https://www.cnblogs.com/pinard/p/9756075.html 在强化学习(八)价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learni 阅读全文
posted @ 2019-04-09 18:27 Angry_Panda 阅读(628) 评论(0) 推荐(0)
摘要: 原文地址: https://blog.csdn.net/woaipichuli/article/details/78645999 这篇博文简单的介绍PySC2的基本使用以及分析一份网友提供的代码(使用DQN来让计算机玩星际2)。 ##1-PySC2 ## Deepmind公布的这段python与Py 阅读全文
posted @ 2019-04-09 11:48 Angry_Panda 阅读(618) 评论(0) 推荐(0)
摘要: 原文地址: https://blog.csdn.net/qq_40244666/article/details/80957644 作者:BOY_IT_IT 来源:CSDN (本文是在Windows下搭建的环境) 一、anacandon的安装 1、下载anacandon软件 链接:https://ww 阅读全文
posted @ 2019-04-09 10:55 Angry_Panda 阅读(1189) 评论(0) 推荐(0)
摘要: 原文地址: https://www.cnblogs.com/pinard/p/9714655.html 在强化学习系列的前七篇里,我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。 Deep Q-Le 阅读全文
posted @ 2019-04-09 10:14 Angry_Panda 阅读(492) 评论(0) 推荐(0)

2019年4月8日

摘要: 原文地址: https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html 1 概述 “猜你喜欢”是美团流量最大的推荐展位,位于首页最下方,产品形态为信息流,承担了帮助用户完成意图转化、发现 阅读全文
posted @ 2019-04-08 09:10 Angry_Panda 阅读(518) 评论(0) 推荐(0)

2019年4月7日

摘要: 原文地址: https://www.cnblogs.com/pinard/p/9669263.html 在强化学习(六)时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于时序差分离线控制算法,主要是经典的Q-Lea 阅读全文
posted @ 2019-04-07 22:24 Angry_Panda 阅读(383) 评论(0) 推荐(0)
摘要: 原文地址: https://www.cnblogs.com/pinard/p/9614290.html 在强化学习(五)用时序差分法(TD)求解中,我们讨论了用时序差分来求解强化学习预测问题的方法,但是对控制算法的求解过程没有深入,本文我们就对时序差分的在线控制算法SARSA做详细的讨论。 SARS 阅读全文
posted @ 2019-04-07 18:26 Angry_Panda 阅读(490) 评论(0) 推荐(0)
上一页 1 ··· 238 239 240 241 242 243 244 245 246 ··· 272 下一页

导航