Reinforcement Learning - 随笔分类 - 凯鲁嘎吉

RL——METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

摘要：RL——METRA: Scalable Unsupervised RL with Metric-Aware Abstraction 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 近期，阅读了一篇发表在ICLR2024上的文章《METRA: Scala 阅读全文

posted @ 2025-12-03 21:32 凯鲁嘎吉阅读(26) 评论(0) 推荐(0)

Python小练习：object类型数据加载

摘要：Python小练习：object类型数据加载作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 给定npy文件，用Python加载后，发现该数据类型dtype=object，本文介绍object类型数据的调用/加载方法，并将数据转化为图像，保存为png与阅读全文

posted @ 2023-04-12 22:08 凯鲁嘎吉阅读(144) 评论(0) 推荐(0)

Safe RL——Constrained Policy Optimization (CPO)

摘要：Safe RL——Constrained Policy Optimization (CPO) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇文章详细讲解Constrained Policy Optimization (CPO)的公式推导，文献来自阅读全文

posted @ 2022-11-19 10:44 凯鲁嘎吉阅读(2113) 评论(0) 推荐(1)

Safe RL——Constrained Variational Policy Optimization for Safe Reinforcement Learning (CVPO)

摘要：Safe RL——Constrained Variational Policy Optimization for Safe Reinforcement Learning (CVPO) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 强化学习可以看作为概阅读全文

posted @ 2022-09-04 10:44 凯鲁嘎吉阅读(1370) 评论(1) 推荐(0)

《Easy RL》面试题汇总

摘要：《Easy RL》面试题汇总作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 本博客汇总了蘑菇书《Easy RL》强化学习中文教程涉及的面试题及答案(v.1.0.3)。强化学习介绍可参看：强化学习(Reinforcement Learning) - 凯阅读全文

posted @ 2022-04-13 16:22 凯鲁嘎吉阅读(2696) 评论(0) 推荐(0)

离线强化学习(A Survey on Offline Reinforcement Learning)

摘要：离线强化学习(A Survey on Offline Reinforcement Learning) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 通过阅读《A Survey on Offline Reinforcement Learning: Ta 阅读全文

posted @ 2022-03-22 17:18 凯鲁嘎吉阅读(3833) 评论(5) 推荐(3)

Deep Reinforcement Learning Hands-On——Policy Gradients – an Alternative

摘要：Deep Reinforcement Learning Hands-On——Policy Gradients – an Alternative 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看：Reinforcement Learning - 阅读全文

posted @ 2022-02-28 16:32 凯鲁嘎吉阅读(2086) 评论(0) 推荐(0)

动态规划(Dynamic Programming, DP)

摘要：动态规划(Dynamic Programming, DP) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 动态规则是运筹学的一个分支, 它是解决多阶段决策过程最优化的一种数学方法。大约产生于20世纪50年代。1951年美国数学家贝尔曼(R .Bell 阅读全文

posted @ 2022-02-26 09:36 凯鲁嘎吉阅读(572) 评论(0) 推荐(0)

Deep Reinforcement Learning Hands-On——Higher-Level RL Libraries (PTAN)

摘要：Deep Reinforcement Learning Hands-On——Higher-Level RL Libraries (PTAN) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看：Reinforcement Learning - 随阅读全文

posted @ 2022-02-23 12:01 凯鲁嘎吉阅读(479) 评论(0) 推荐(0)

Deep Reinforcement Learning Hands-On——Tabular Learning and the Bellman Equation

摘要：Deep Reinforcement Learning Hands-On——Tabular Learning and the Bellman Equation 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看：Reinforcement Lea 阅读全文

posted @ 2022-02-14 10:04 凯鲁嘎吉阅读(346) 评论(0) 推荐(0)

Hands-On Reinforcement Learning With Python——Temporal Difference Learning

摘要：Hands-On Reinforcement Learning With Python——Temporal Difference Learning 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看：Reinforcement Learning 阅读全文

posted @ 2022-01-10 09:58 凯鲁嘎吉阅读(326) 评论(0) 推荐(0)

Windows下OpenAI gym环境的使用

摘要：Windows下OpenAI gym环境的使用作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. gym环境搭建用到的关键语句 1.1 准备工作首先创建一个虚拟环境conda create -n RL python=3.8，激活activate 阅读全文

posted @ 2022-01-04 01:06 凯鲁嘎吉阅读(1690) 评论(0) 推荐(1)

Meta-RL——Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

摘要：Meta-RL——Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博客是“Ef 阅读全文

posted @ 2021-11-23 13:04 凯鲁嘎吉阅读(1320) 评论(10) 推荐(2)

RL——Deep Reinforcement Learning amidst Continual/Lifelong Structured Non-Stationarity

摘要：RL——Deep Reinforcement Learning amidst Continual/Lifelong Structured Non-Stationarity 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博客简要回顾论文“Deep 阅读全文

posted @ 2021-11-16 17:26 凯鲁嘎吉阅读(817) 评论(0) 推荐(0)

Meta-RL——Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices

摘要：Meta-RL——Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇阅读全文

posted @ 2021-11-10 15:22 凯鲁嘎吉阅读(384) 评论(0) 推荐(0)

强化学习相关资料(书籍，课程，网址，笔记等)

摘要：强化学习相关资料(书籍，课程，网址，笔记等) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看：Reinforcement Learning - 随笔分类 - 凯鲁嘎吉 - 博客园 https://www.cnblogs.com/kailuga 阅读全文

posted @ 2021-11-01 16:14 凯鲁嘎吉阅读(3070) 评论(2) 推荐(1)

双层优化问题：统一GAN，演员-评论员与元学习方法(Bilevel Optimization Problem unifies GAN, Actor-Critic, and Meta-Learning Methods)

摘要：双层优化问题：统一GAN，演员-评论员与元学习方法 (Bilevel Optimization Problem unifies GAN, Actor-Critic, and Meta-Learning Methods) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kai 阅读全文

posted @ 2021-10-21 13:15 凯鲁嘎吉阅读(5927) 评论(2) 推荐(1)

重要性采样(Importance Sampling)——TRPO与PPO的补充

摘要：重要性采样(Importance Sampling)——TRPO与PPO的补充作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 上两篇博客已经介绍了信赖域策略优化(Trust Region Policy Optimization, TRPO)与近端策略阅读全文

posted @ 2021-10-13 11:32 凯鲁嘎吉阅读(2658) 评论(0) 推荐(2)

近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

摘要：近端策略优化算法(Proximal Policy Optimization Algorithms, PPO) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博文是Schulman, J., Wolski, F., Dhariwal, P., Ra 阅读全文

posted @ 2021-10-12 09:54 凯鲁嘎吉阅读(3290) 评论(0) 推荐(0)

信赖域策略优化(Trust Region Policy Optimization, TRPO)

摘要：信赖域策略优化(Trust Region Policy Optimization, TRPO) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博文是John S., Sergey L., Pieter A., Michael J., Philip 阅读全文

posted @ 2021-10-10 13:31 凯鲁嘎吉阅读(3713) 评论(1) 推荐(2)

随笔分类 - Reinforcement Learning