Angry_Panda - 博客园

【转载】 Pytorch 细节记录

摘要：原文地址： https://www.cnblogs.com/king-lps/p/8570021.html 1. PyTorch进行训练和测试时指定实例化的model模式为：train/eval eg: eval即evaluation模式，train即训练模式。仅仅当模型中有Dropout和Batc 阅读全文

posted @ 2019-04-11 21:03 Angry_Panda 阅读(1274) 评论(0) 推荐(0)

【转载】避免博士生沦为「高危人群」，从正视与导师的关系做起

摘要：原文地址： https://www.leiphone.com/news/201904/xpEfrUZkgvgYh8Pu.html 雷锋网导语：几个参考建议本文作者：黄善清 2019-04-10 14:18 雷锋网 AI 科技评论：国内博士一念就是 4 到 6 年，在这段时间里，接触最频繁的博士导阅读全文

posted @ 2019-04-11 13:40 Angry_Panda 阅读(1496) 评论(1) 推荐(1)

【转载】强化学习(十一) Prioritized Replay DQN

摘要：原文地址： https://www.cnblogs.com/pinard/p/9797695.html 在强化学习（十）Double DQN (DDQN)中，我们讲到了DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作对应的目标Q值，进而消除贪婪法带来的偏差。今阅读全文

posted @ 2019-04-10 09:56 Angry_Panda 阅读(984) 评论(0) 推荐(0)

【转载】强化学习（十）Double DQN (DDQN)

摘要：原文地址： https://www.cnblogs.com/pinard/p/9778063.html 在强化学习（九）Deep Q-Learning进阶之Nature DQN中，我们讨论了Nature DQN的算法流程，它通过使用两个相同的神经网络，以解决数据样本和网络训练之前的相关性。但是还是有阅读全文

posted @ 2019-04-09 22:30 Angry_Panda 阅读(1715) 评论(0) 推荐(0)

【转载】强化学习（九）Deep Q-Learning进阶之Nature DQN

摘要：原文地址： https://www.cnblogs.com/pinard/p/9756075.html 在强化学习（八）价值函数的近似表示与Deep Q-Learning中，我们讲到了Deep Q-Learning（NIPS 2013）的算法和代码，在这个算法基础上，有很多Deep Q-Learni 阅读全文

posted @ 2019-04-09 18:27 Angry_Panda 阅读(628) 评论(0) 推荐(0)

【转载】 Deepmind星际争霸2平台使用第一轮-完成采矿

摘要：原文地址： https://blog.csdn.net/woaipichuli/article/details/78645999 这篇博文简单的介绍PySC2的基本使用以及分析一份网友提供的代码（使用DQN来让计算机玩星际2）。 ##1-PySC2 ## Deepmind公布的这段python与Py 阅读全文

posted @ 2019-04-09 11:48 Angry_Panda 阅读(621) 评论(0) 推荐(0)

【转载】星际争霸2的AI环境搭建

摘要：原文地址： https://blog.csdn.net/qq_40244666/article/details/80957644 作者：BOY_IT_IT 来源：CSDN (本文是在Windows下搭建的环境) 一、anacandon的安装 1、下载anacandon软件链接：https://ww 阅读全文

posted @ 2019-04-09 10:55 Angry_Panda 阅读(1192) 评论(0) 推荐(0)

【转载】强化学习（八）价值函数的近似表示与Deep Q-Learning

摘要：原文地址： https://www.cnblogs.com/pinard/p/9714655.html 在强化学习系列的前七篇里，我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。 Deep Q-Le 阅读全文

posted @ 2019-04-09 10:14 Angry_Panda 阅读(492) 评论(0) 推荐(0)

【转载】强化学习在美团“猜你喜欢”的实践

摘要：原文地址： https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html 1 概述 “猜你喜欢”是美团流量最大的推荐展位，位于首页最下方，产品形态为信息流，承担了帮助用户完成意图转化、发现阅读全文

posted @ 2019-04-08 09:10 Angry_Panda 阅读(519) 评论(0) 推荐(0)

【转载】强化学习（七）时序差分离线控制算法Q-Learning

摘要：原文地址： https://www.cnblogs.com/pinard/p/9669263.html 在强化学习（六）时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA，而另一类时序差分的离线控制算法还没有讨论，因此本文我们关注于时序差分离线控制算法，主要是经典的Q-Lea 阅读全文

posted @ 2019-04-07 22:24 Angry_Panda 阅读(384) 评论(0) 推荐(0)

Angry Panda（T-800）

公告

导航