摘要:
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Neural Computation, (2007): 2245-2279 Abstract 学习智能体,无论是自然的还是人工的,都必须更新它们的内部参数,以便随着时间的推移改进它们的行为。在强化学习中,这种可塑性受到环境信号(称为奖励) 阅读全文
posted @ 2022-04-02 22:45
穷酸秀才大草包
阅读(116)
评论(0)
推荐(0)

浙公网安备 33010602011771号