摘要:
Mastering the game of Go with deep neural networks and tree search AlphaGo 2016 人类数据训练网络 —— 自我对弈强化学习 —— MCTS(PUCT) Mastering the game of Go without hu 阅读全文
摘要:
What can rl bring to vla generalization? an empirical study. arxiv 在vla模型的最后一层外接MLP来得到Q-value,从而可以使用PPO等强化学习算法进行微调 PPO表现优于DPO、GRPO等 RL微调vla使其泛化性提高 Sho 阅读全文
摘要:
情况说明 我自己安装了ubuntu24双系统,正常使用半个月后,ubuntu桌面自己弹窗需要重启完成更新。重启后发现外接显示器无法显示,终端执行nvidia-smi命令显示“NVIDIA-SMI has failed because it couldn’t communicate with the 阅读全文
摘要:
=Decision Transformer paper Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement 来源:南大wangzhi团队工作(NIPS2024) arxi 阅读全文