强化学习 - 随笔分类(第2页) - 穷酸秀才大草包

Gym-like CARLA强化学习环境封装——开源代码学习

摘要：开源代码学习 gym-carla [Task] random：无目标驾驶 roundabout (only for Town03)：驶入环岛即停止的无目标驾驶 [Action] => accel: -3.0~3.0, steer: -0.3~0.3 => throttle: 0.0~1.0, bra 阅读全文

posted @ 2022-06-15 13:56 穷酸秀才大草包阅读(892) 评论(0) 推荐(0)

Smooth Exploration for Robotic Reinforcement Learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ (Arxiv 2021) Abstract 强化学习(RL)使机器人能够从与现实世界的交互中学习技能。在实践中，Deep RL中使用的基于步骤的非结构化探索(通常在模拟中非常成功)会导致真实机器人的运动模式不稳定。由此产生的不稳定行为的后阅读全文

posted @ 2022-05-09 12:00 穷酸秀才大草包阅读(316) 评论(0) 推荐(0)

rlpyt: A Research Code Base for Deep Reinforcement Learning in PyTorch

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！源码分析：rlpyt（Deep Reinforcement Learning in PyTorch） - 穷酸秀才大艹包 - 博客园 (cnblogs.com) Abstract 自从最近出现用于游戏的深度强化学习[1]和模拟机器人控制( 阅读全文

posted @ 2022-04-27 21:53 穷酸秀才大草包阅读(300) 评论(0) 推荐(0)

Model-free Deep Reinforcement Learning for Urban Autonomous Driving

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ 2019 IEEE INTELLIGENT TRANSPORTATION SYSTEMS CONFERENCE (ITSC), (2019): 2765-2771 Abstract 由于复杂的道路几何形状和多智能体交互，城市自动驾驶决策具阅读全文

posted @ 2022-04-21 22:13 穷酸秀才大草包阅读(450) 评论(0) 推荐(0)

Learning to Drive in a Day

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ International Conference on Robotics and Automation, (ICRA 2019) Abstract 我们展示了深度强化学习在自动驾驶中的首次应用。从随机初始化的参数中，我们的模型能够使用单个阅读全文

posted @ 2022-04-20 22:25 穷酸秀才大草包阅读(383) 评论(0) 推荐(0)

Recurrent Experience Replay in Distributed Reinforcement Learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ICLR 2019 ABSTRACT 基于最近在RL智能体分布式训练方面取得的成功，在本文中，我们研究了从分布式优先经验回放中对基于RNN的RL智能体的训练。我们研究了参数滞后导致表征漂移和循环状态陈旧的影响，并根据经验得出了改进的训练策阅读全文

posted @ 2022-04-19 17:32 穷酸秀才大草包阅读(617) 评论(0) 推荐(0)

Temporal-Spatial Causal Interpretations for Vision-Based Reinforcement Learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ IEEE transactions on pattern analysis and machine intelligence, (2021) Abstract 深度强化学习(RL)智能体越来越精通一系列复杂的控制任务。然而，由于黑盒函数的阅读全文

posted @ 2022-04-19 15:51 穷酸秀才大草包阅读(273) 评论(0) 推荐(0)

Blockwise Sequential Model Learning for Partially Observable Reinforcement Learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ AAAI 2022 Abstract 本文提出了一种新的序列模型学习架构来解决部分可观察的马尔可夫决策问题。与传统的基于循环神经网络的方法在每个时间步骤压缩序列信息不同，所提出的架构在每个数据块中生成一个具有多个时间步骤的潜在变量，并将最阅读全文

posted @ 2022-04-19 10:47 穷酸秀才大草包阅读(236) 评论(0) 推荐(0)

Reinforcement Learning with Long Short-Term Memory

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 14, VOLS 1 AND 2, (2002): 1475.0-1482.0 Abstract 本文介绍了使用长短期记忆循环神经网络的强阅读全文

posted @ 2022-04-15 10:32 穷酸秀才大草包阅读(1330) 评论(0) 推荐(0)

强化学习算法分类（Kinds of RL Algorithms）

摘要：现代RL中一种非详尽但有用的算法分类法。图片源自：OpenAI Spinning Up (https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html#citations-below) 强化学习算法：参考文献：Part 2: 阅读全文

posted @ 2022-02-24 16:44 穷酸秀才大草包阅读(2239) 评论(0) 推荐(1)

Deep Reinforcement Learning with Double Q-learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ AAAI 2016 Abstract 众所周知，流行的Q学习算法会在某些条件下高估动作价值。以前不知道在实践中这种高估是否普遍，它们是否会损害性能，以及它们是否通常可以避免。在本文中，我们肯定地回答了所有这些问题。特别是，我们首先表明，最阅读全文

posted @ 2022-02-18 15:20 穷酸秀才大草包阅读(641) 评论(0) 推荐(0)

Q学习方法失败的方式和原因

摘要：Q学习方法只能通过训练Qθ以满足自洽方程，间接优化智能体性能。这种学习有很多失败模式，所以它往往不太稳定。有关Q学习方法失败的方式和原因的更多信息，请参见下面材料： 1）Tsitsiklis and van Roy的这篇经典论文： 2）Szepesvari的评论(见第4.3.2节)： Q学习对具有阅读全文

posted @ 2022-02-17 10:44 穷酸秀才大草包阅读(1067) 评论(0) 推荐(0)

SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！参考链接：SEED RL：SCALABLE AND EFFICIENT DEEP-RL WITH ACCELERATED CENTRAL INFERENCE 翻译_circleyuanquan的博客-CSDN博客 Published as 阅读全文

posted @ 2021-11-28 10:32 穷酸秀才大草包阅读(280) 评论(0) 推荐(0)

EnvPool调研笔记

摘要：EnvPool: A Highly Parallel Reinforcement Learning Environment Execution Engine 阅读全文

posted @ 2021-11-10 15:27 穷酸秀才大草包阅读(1245) 评论(0) 推荐(0)

强化学习中的对抗攻击

摘要：参考链接：【强化学习应用1１】对抗策略：深度强化学习攻击(1) - 知乎 (zhihu.com) 强化学习对抗攻击总结_葛萧艾的博客-CSDN博客参考文献： Sandy H. Huang, Nicolas Papernot, Ian J. Goodfellow, Yan Duan, and Pi 阅读全文

posted @ 2021-11-01 16:00 穷酸秀才大草包阅读(1093) 评论(0) 推荐(0)

Speeding up DQN on PyTorch: how to solve Pong in 30 minutes

摘要：DQN Atari 速率提高节省时间阅读全文

posted @ 2021-08-28 22:32 穷酸秀才大草包阅读(624) 评论(0) 推荐(0)

Human-level control through deep reinforcement learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ NATURE, no. 7540 (2015): 529-533 Abstract 强化学习理论在动物行为上，深入到心理和神经科学的角度，关于在一个环境中如何使得智能体优化他们的控制，提供了一个正式的规范。为了利用强化学习成功的接近现实世阅读全文

posted @ 2021-07-07 11:13 穷酸秀才大草包阅读(383) 评论(0) 推荐(0)

Synthetic Returns for Long-Term Credit Assignment

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 从强化学习的早期开始，TD学习就一直是为动作分配信度的主要方法，它一步一步地向后传播信度。当动作和奖励之间的延迟很长，并且当干预的不相关事件导致长期回报的方差时，这种方法会受到影响。我们提出了状态联想(SA)学习，其中智阅读全文

posted @ 2021-06-18 16:34 穷酸秀才大草包阅读(143) 评论(0) 推荐(0)

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 30 (NIPS 2017), (2017): 6379-6390 代码分析（Blog）：Multi-Agent Actor-Critic 阅读全文

posted @ 2021-06-08 11:24 穷酸秀才大草包阅读(1357) 评论(1) 推荐(0)

Reinforcement Learning in Continuous Time and Space

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Neural Computation, no. 1 (2000): 219-245 Abstract 本文提出了一种用于连续时间动态系统的强化学习框架，而没有时间、状态和动作的离散先验。基于哈密尔顿-雅各比-贝尔曼(HJB)方程的无穷视野阅读全文

posted @ 2021-05-19 15:09 穷酸秀才大草包阅读(468) 评论(0) 推荐(0)

穷酸秀才大艹包

随笔分类 - 强化学习

导航

公告