摘要: 参考文章 强化学习库StableBaselines3小白教程(一)环境配置和训练 - 蓝鲸鱼BlueWhale的文章 - 知乎 训练设置 依赖:rl-baseline3-zoo、tensorboar、wandb 以ppo算法和CartPole-v1为例 env=CartPole-v1 alog=pp 阅读全文
posted @ 2025-05-28 13:40 霜尘FrostDust 阅读(256) 评论(0) 推荐(0)
摘要: ** ODT工作** Online Decision Transformer 来源ICML2022 oral arxiv Fully Online Decision Transformer for Reinforcement Learning 来源:umich pdf tlnr: 讲DT改为基于re 阅读全文
posted @ 2025-05-08 11:03 霜尘FrostDust 阅读(108) 评论(0) 推荐(0)
摘要: 问题描述 个人windows电脑在git bash中执行git clone命令时出现报错 xh@DESKTOP-2DNL2VM MINGW64 /d/temp $ git clone git://github.com/dailystudio/gemini-codelab-bwa-04-12.git 阅读全文
posted @ 2025-04-13 15:32 霜尘FrostDust 阅读(298) 评论(0) 推荐(0)
摘要: 待读论文不能超过2篇 Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables 来源:师弟推荐(ICML2019) bair blog Openreview keynotes:1、meta 阅读全文
posted @ 2025-04-02 16:16 霜尘FrostDust 阅读(73) 评论(0) 推荐(0)
摘要: VariBAD: Variational Bayes-Adaptive Deep RL via Meta-Learning 来源:AMAGO提到的效果好但复杂的方法(2022) VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Me 阅读全文
posted @ 2025-03-19 14:54 霜尘FrostDust 阅读(17) 评论(0) 推荐(0)
摘要: RL论文 这位大佬git上总结的很全面且新,欢迎大家多多交流! Reinforcement Learning Papers Decision Transformer论文 repo In-context RL论文 repo Atari游戏介绍 参考这篇博客 OpenAI gym 环境汇总 博客 阅读全文
posted @ 2025-03-17 21:01 霜尘FrostDust 阅读(28) 评论(0) 推荐(0)
摘要: Masked Visual-Tactile Pre-training for Robot Manipulation 来源:NESC大组会上别的同学的工作 作者:刘庆涛,叶琦 主要内容:针对机械臂操作训练难的问题,提出基于人类演示的预训练表征范式,并基于此encoder使用PPO训练下游任务。注意这篇 阅读全文
posted @ 2025-03-17 20:52 霜尘FrostDust 阅读(84) 评论(0) 推荐(0)
摘要: 有关上下文强化学习的优质论文收集: Awesome In-Context Reinforcement Learning In-context Reinforcement Learning with Algorithm Distillation Michael Laskin, Luyu Wang, J 阅读全文
posted @ 2025-03-05 19:38 霜尘FrostDust 阅读(149) 评论(0) 推荐(0)
摘要: 本文记录此次报告的key point(个人向) llm时代的几点difficulity Inference-time computation scalling OpenAI o1 利用RL来显式整合inference期间推理的step(inference-time computation) (从pr 阅读全文
posted @ 2025-03-05 11:23 霜尘FrostDust 阅读(39) 评论(1) 推荐(0)
摘要: Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks (2017) arxiv:https://arxiv.org/abs/1703.03400 来源:MoonOut 作者:Chelsea Finn, Pieter Abb 阅读全文
posted @ 2025-03-02 21:01 霜尘FrostDust 阅读(132) 评论(0) 推荐(0)