霜尘FrostDust - 博客园

2025年2月25日

摘要：本文主要是对论文Decision Transformer: Reinforcement Learning via Sequence Modeling的复现记录由于论文年代比较早(21年)，主要的复现工作也是在22年之前，随着环境和包依赖的改变，实现起来比较困难。笔者作为RL小白也是在配置环境上面吃阅读全文

posted @ 2025-02-25 23:08 霜尘FrostDust 阅读(452) 评论(0) 推荐(0)

2025年2月21日

服务器相关操作指令

摘要：课题组服务器操作指南1文档课题组服务器操作指南24 服务器管理指南21 设置内网linux服务器访问外网 ssh连接pycharm和jupyter docker容器VNC设置远程桌面 vncserver -kill :1 (结束终端) vncserver -localhost no :1 -geo 阅读全文

posted @ 2025-02-21 15:00 霜尘FrostDust 阅读(41) 评论(0) 推荐(0)

2025年2月20日

论文阅读 | Q-Transformer

摘要： Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions 【CORL2023】来源：别人推荐作者：Googlle DeepMind / Servey Levine arxiv: ht 阅读全文

posted @ 2025-02-20 16:00 霜尘FrostDust 阅读(154) 评论(0) 推荐(0)

2025年2月18日

常用指令

摘要： nanom:linux命令之nano vim :linux命令之vim 在 Ubuntu 中安装、切换多版本 GCC 编译器:[参考指南]（https://www.sysgeek.cn/ubuntu-install-gcc-compiler/）阅读全文

posted @ 2025-02-18 17:20 霜尘FrostDust 阅读(20) 评论(0) 推荐(0)

2025年2月14日

论文阅读 | 离线强化学习研究综述25年1月

摘要：文章来源计算机学报2025年1月比较新的一篇中文综述，值得一读 O Introduction DRL应用如AlphaGo需要与环境在线交互，并且进行大量数据采样，现实世界代价昂贵且试错风险极高 2020年Levine提出离线强化学习概念（Offline Reinforcement Learnin 阅读全文

posted @ 2025-02-14 13:28 霜尘FrostDust 阅读(1844) 评论(0) 推荐(0)

2025年2月13日

Offline RL | Deadly Triad issue

摘要：推荐阅读Why is there a Deadly Triad issue and how to handle it ? Bootstrapping Off-policy learning Function approximations 当上述三者结合在一起时，value function 可能表示阅读全文

posted @ 2025-02-13 18:44 霜尘FrostDust 阅读(38) 评论(0) 推荐(0)

2025年1月17日

【论文阅读】GROOT：Learning to Follow Instructions by Watching Gameplay Viedos

摘要： GROOT：Learning to Follow Instructions by Watching Gameplay Viedos.作者为北京大学梁一韬所在的Team CraftJarvis,发表时间为2023 Background 在开放世界下开发类人级别的具身智能体以解决开放式任务一直是人工智能阅读全文

posted @ 2025-01-17 11:15 霜尘FrostDust 阅读(110) 评论(0) 推荐(0)

【论文阅读】Transformer-XL

摘要： Transformer-xl: Attentive language models beyond a fixed-length context.ACL 2019 其是对Transformer架构的改造。 Transformer-XL 使学习依赖性超过固定长度而不破坏时间连贯性(450% longer 阅读全文

posted @ 2025-01-17 10:43 霜尘FrostDust 阅读(128) 评论(0) 推荐(0)

2025年1月15日

KL散度计算

摘要： KL散度(Kullback-Leibler Divergence)是用来度量两个概率分布相似度的指标，是经典损失函数，应用于PPO等算法参数估计设计。 KL散度的定义假设对随机变量\(\xi\)，存在两个概率分布P和Q。如果\(\xi\)为离散变量，则定义从P到Q的KL散度为： \[D_{KL}( 阅读全文

posted @ 2025-01-15 21:56 霜尘FrostDust 阅读(1189) 评论(0) 推荐(0)

2025年1月10日

第三届智能决策论坛|决策大模型专题报告——随笔(1)

摘要：前言这次汇报的有四位老师，其中我比较感兴趣的是上海交通大学张伟楠老师、北京大学梁一韬老师和清华大学高宸老师的报告，其中张老师之前已经记录过，本文主要作为对梁一韬老师的分享的记录与思考。 CRAFT JARVIS: Towards Generalist Agents in an Open World 阅读全文

posted @ 2025-01-10 21:01 霜尘FrostDust 阅读(253) 评论(0) 推荐(0)

FrostDust

公告