摘要: 在编写客制的深度强化学习环境时,有时候需要使用到智能体多维动作空间的应用。 比如说,我们设计的环境是一个打砖块游戏,这时智能体需要产生一个[左,右,不动]的动作概率分布,智能体动作空间只产生一个维度:[0.2,0.4,0.4] 此时,我们需要设计板来打砖块,而且是一个智能体,这时候智能体产生的动作空 阅读全文
posted @ 2024-08-18 17:20 Wonx3 阅读(170) 评论(0) 推荐(0)