2020 年 12月 4 日随笔档案 - ZHGQCN

2020年12月4日

摘要：强化学习任务与奖赏概念：机器处于某一环境中，在当前状态在做出动作导致状态的改变而得到环境的奖励反馈。通过奖励反馈的不断学习，总结出较好的策略。策略的优略取决于长期执行某一策略后得到的累积奖赏，而强化学习的目的就是要找到能是长期累积奖赏最大化的策略。 K-摇臂赌博机（为使得最大化单步强化学习）阅读全文

posted @ 2020-12-04 11:09 ZHGQCN 阅读(527) 评论(0) 推荐(0)

Loading

ZHGQCN

公告