2024 年 8月 18 日随笔档案 - Wonx3

2024年8月18日

摘要：在编写客制的深度强化学习环境时，有时候需要使用到智能体多维动作空间的应用。比如说，我们设计的环境是一个打砖块游戏，这时智能体需要产生一个[左，右，不动]的动作概率分布，智能体动作空间只产生一个维度：[0.2,0.4,0.4] 此时，我们需要设计板来打砖块，而且是一个智能体，这时候智能体产生的动作空阅读全文

posted @ 2024-08-18 17:20 Wonx3 阅读(170) 评论(0) 推荐(0)

公告