2022年4月2日

摘要: 郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Neural Computation, (2007): 2245-2279 Abstract 学习智能体,无论是自然的还是人工的,都必须更新它们的内部参数,以便随着时间的推移改进它们的行为。在强化学习中,这种可塑性受到环境信号(称为奖励) 阅读全文
posted @ 2022-04-02 22:45 穷酸秀才大草包 阅读(116) 评论(0) 推荐(0)

导航