会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
OpenDILab
博客园
首页
新随笔
联系
订阅
管理
2022年8月16日
Decision Transformer 前沿追踪——万物皆可归于序列预测
摘要: 引言 如果想要将强化学习技术应用在某个决策领域,最重要的就是将原始问题转换为一个合理的 MDP (马尔科夫决策过程)问题,而一旦问题环境本身有一些不那么友好的”特性“(比如部分可观测,非平稳过程等等),常规强化学习方法的效果便可能大打折扣。另一方面,随着近些年来数据驱动范式的发展,大数据和预训练大模
阅读全文
posted @ 2022-08-16 10:56 OpenDILab
阅读(740)
评论(0)
推荐(0)
公告