摘要: 所以时间步和mini-batch的关系是什么。是不是可以这样设置,128个时间步更新模型一次,将所有的经验(状态,动作,奖励)对存储起来,然后,按mini-batch的size划分为k。将模型更新k次? 是的,您可以这样理解和设置。简单来说,时间步和mini-batch之间的关系可以通过以下方式来组 阅读全文
posted @ 2025-02-14 00:40 GraphL 阅读(413) 评论(0) 推荐(0)