摘要: FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies CORL 2025 project Object-Centric Latent Action Lea 阅读全文
posted @ 2025-11-17 21:23 霜尘FrostDust 阅读(1) 评论(0) 推荐(0)
摘要: Mastering the game of Go with deep neural networks and tree search AlphaGo 2016 人类数据训练网络 —— 自我对弈强化学习 —— MCTS(PUCT) Mastering the game of Go without hu 阅读全文
posted @ 2025-10-09 11:06 霜尘FrostDust 阅读(12) 评论(0) 推荐(1)
摘要: What can rl bring to vla generalization? an empirical study. arxiv 在vla模型的最后一层外接MLP来得到Q-value,从而可以使用PPO等强化学习算法进行微调 PPO表现优于DPO、GRPO等 RL微调vla使其泛化性提高 Sho 阅读全文
posted @ 2025-09-03 21:52 霜尘FrostDust 阅读(21) 评论(0) 推荐(0)
摘要: 课题组服务器操作指南1文档 课题组服务器操作指南24 服务器管理指南21 设置内网linux服务器访问外网 ssh连接pycharm和jupyter docker容器VNC设置远程桌面 vncserver -kill :1 (结束终端) vncserver -localhost no :1 -geo 阅读全文
posted @ 2025-02-21 15:00 霜尘FrostDust 阅读(19) 评论(0) 推荐(0)
摘要: nanom:linux命令之nano vim :linux命令之vim 在 Ubuntu 中安装、切换多版本 GCC 编译器:[参考指南](https://www.sysgeek.cn/ubuntu-install-gcc-compiler/) 阅读全文
posted @ 2025-02-18 17:20 霜尘FrostDust 阅读(19) 评论(0) 推荐(0)
摘要: XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning key word: ICRL ICLR2025 dunnolab work 必要性:ICRL需要数量足够大且具有一定复杂性的训练数据, 阅读全文
posted @ 2025-08-22 21:15 霜尘FrostDust 阅读(20) 评论(0) 推荐(1)
摘要: 情况说明 我自己安装了ubuntu24双系统,正常使用半个月后,ubuntu桌面自己弹窗需要重启完成更新。重启后发现外接显示器无法显示,终端执行nvidia-smi命令显示“NVIDIA-SMI has failed because it couldn’t communicate with the 阅读全文
posted @ 2025-07-21 19:46 霜尘FrostDust 阅读(1707) 评论(0) 推荐(0)
摘要: 我的配置:i9-14900k+Rtx5060ti, 已经安装好了win11系统 注意!!50系列显卡win主机 若要安装双系统ubuntu,ubuntu版本只能选择ubuntu24.04 (截至本文25年7月),若想要安装ubuntu22,会出现以下报错: `What I’ve Tried: 1、a 阅读全文
posted @ 2025-07-16 11:20 霜尘FrostDust 阅读(366) 评论(1) 推荐(0)
摘要: Decision Transformret-action space In-Context Reinforcement Learning for Variable Action Spaces 来源:ICML2024 arxiv openreview Motivation: 经典ICRL架构如AD和D 阅读全文
posted @ 2025-07-03 10:25 霜尘FrostDust 阅读(22) 评论(0) 推荐(0)
摘要: 笔者的环境是win11+ubuntu24双系统 首先参考这个Ubuntu24.04双系统安装(Linux/windows共存一文打通)完成ubuntu系统的安装 安装显卡驱动环节主要参考了这篇非常详细的ubuntu24.04+5090显卡驱动安装踩坑,根据我的系统,我安装的显卡驱动版本为570.16 阅读全文
posted @ 2025-06-29 21:36 霜尘FrostDust 阅读(1669) 评论(0) 推荐(0)
摘要: =Decision Transformer paper Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement 来源:南大wangzhi团队工作(NIPS2024) arxi 阅读全文
posted @ 2025-06-06 17:34 霜尘FrostDust 阅读(77) 评论(0) 推荐(0)
摘要: 参考文章 强化学习库StableBaselines3小白教程(一)环境配置和训练 - 蓝鲸鱼BlueWhale的文章 - 知乎 训练设置 依赖:rl-baseline3-zoo、tensorboar、wandb 以ppo算法和CartPole-v1为例 env=CartPole-v1 alog=pp 阅读全文
posted @ 2025-05-28 13:40 霜尘FrostDust 阅读(214) 评论(0) 推荐(0)