2022 年 8月 16 日随笔档案 - OpenDILab

2022年8月16日

摘要：引言如果想要将强化学习技术应用在某个决策领域，最重要的就是将原始问题转换为一个合理的 MDP （马尔科夫决策过程）问题，而一旦问题环境本身有一些不那么友好的”特性“（比如部分可观测，非平稳过程等等），常规强化学习方法的效果便可能大打折扣。另一方面，随着近些年来数据驱动范式的发展，大数据和预训练大模阅读全文

posted @ 2022-08-16 10:56 OpenDILab 阅读(768) 评论(0) 推荐(0)

OpenDILab

公告