摘要:
1. MDP的最佳策略是确定性和无记忆的,一错会再错,以前发生的状态也不记得。Memory模块是正解吗? 图源 https://zhuanlan.zhihu.com/p/430221668 2. 毫末 吕迪 对于RL现存问题的看法 每个观点都很insight 强化学习领域目前遇到的瓶颈是什么? - 阅读全文
posted @ 2023-09-12 18:56
Zer0_Chambers
阅读(32)
评论(0)
推荐(0)


浙公网安备 33010602011771号