穷酸秀才大草包

摘要： PyTorch模型数据统计分析（模型每层形状、参数量、FLOPs）阅读全文

posted @ 2020-12-01 20:11 穷酸秀才大草包阅读(4065) 评论(0) 推荐(0)

Mastering the game of Go without human knowledge

摘要： AlphaGo, AlphaZero 阅读全文

posted @ 2020-11-22 17:26 穷酸秀才大草包阅读(762) 评论(0) 推荐(0)

How to Combine Tree-Search Methods in Reinforcement Learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ AAAI 2019 Best Paper Abstract RL中大量使用了有限视野的前瞻策略，并显示出令人印象深刻的经验性成功。通常，前瞻策略是通过特定的规划方法(例如，蒙特卡洛树搜索)(例如，在AlphaZero中(Silver et 阅读全文

posted @ 2020-11-21 19:59 穷酸秀才大草包阅读(398) 评论(0) 推荐(0)

Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Journal of Artificial Intelligence Research, (2018) Abstract ALE是一个评估平台，构成了在数十种Atari 2600游戏中构建具有通用能力的AI智能体所面临的挑战。它支持各种不阅读全文

posted @ 2020-11-17 16:20 穷酸秀才大草包阅读(420) 评论(0) 推荐(0)

强化学习仿真平台调研

摘要：仅讨论部分RL仿真平台，下图参见AI2-THOR论文中的图： ALE是一个开源的Atari 2600模拟器。 TORCS：《The Open Racing Car Simulator》(TORCS) 是一款开源3D赛车模拟游戏。是在Linux操作系统上广受欢迎的赛车游戏。有50种车辆和20条赛道，简阅读全文

posted @ 2020-11-16 17:00 穷酸秀才大草包阅读(927) 评论(0) 推荐(0)

AirSim: High-Fidelity Visual and Physical Simulation for Autonomous Vehicles

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ FSR 2017 Conference 开源项目代码：https://github.com/Microsoft/AirSim Abstract 在现实世界中为自动驾驶飞行器开发和测试算法是一个昂贵且耗时的过程。同样，为了利用机器智能和深度阅读全文

posted @ 2020-11-15 15:58 穷酸秀才大草包阅读(1382) 评论(0) 推荐(0)

Soft Actor-Critic For Discrete Action Settings

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ABSTRACT SAC是用于连续动作设置的最先进的RL算法，不适用于离散动作设置。但是，许多重要的设置都涉及离散动作，因此，在这里我们导出了适用于离散动作设置的SAC算法的替代版本。然后，我们证明了，即使没有任何超参数调整，它在Atar 阅读全文

posted @ 2020-11-14 15:31 穷酸秀才大草包阅读(1739) 评论(0) 推荐(0)

Atari游戏介绍（ALE中集成的RL游戏环境）+ Atari（gym）

摘要： Atari游戏介绍（ALE中集成的RL游戏环境）阅读全文

posted @ 2020-11-13 21:20 穷酸秀才大草包阅读(12638) 评论(1) 推荐(3)

Deep Q-Learning with Recurrent Neural Networks

摘要： Deep Q-Learning with Recurrent Neural Networks (DRQN) 阅读全文

posted @ 2020-11-11 16:54 穷酸秀才大草包阅读(993) 评论(0) 推荐(0)

Deep Recurrent Q-Learning for Partially Observable MDPs

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ AAAI Fall Symposia, (2015): 29-37 Abstract 深度RL已经为复杂的任务提供了精通的控制器。但是，这些控制器的内存有限，并且依赖于能够在每个决策点感知完整的游戏画面。为了解决这些缺点，本文研究了用循环阅读全文

posted @ 2020-11-10 10:43 穷酸秀才大草包阅读(579) 评论(0) 推荐(0)

穷酸秀才大艹包

导航

公告