Loading

摘要: 强化学习 任务与奖赏 概念:机器处于某一环境中,在当前状态在做出动作导致状态的改变而得到环境的奖励反馈。通过奖励反馈的不断学习,总结出较好的策略。 策略的优略取决于长期执行某一策略后得到的累积奖赏,而强化学习的目的就是要找到能是长期累积奖赏最大化的策略。 K-摇臂赌博机(为使得最大化单步强化学习) 阅读全文
posted @ 2020-12-04 11:09 ZHGQCN 阅读(524) 评论(0) 推荐(0)