2020年12月17日

摘要: 郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Neural Computation, no. 2 (2009): 301-339 Abstract 与环境交互而适应行为以最大化奖励的能力对于任何高级生物的生存至关重要。在RL框架中,TD学习算法为这种目标导向的适应提供了有效的策略,但 阅读全文
posted @ 2020-12-17 09:26 穷酸秀才大草包 阅读(405) 评论(0) 推荐(0)

导航