2023 年 2月 24 日随笔档案 - 暗恋懒羊羊

2023年2月24日

2.24 汇报之强化学习

摘要： 1、强化学习的基础理解：强化学习中的状态随机性有两个来源：动作的执行是根据策略函数随机抽取的、下一个状态是根据策略函数随机抽样的。总回报是所有步骤的奖励之和，希望强化学习具有前瞻性，所以提出了折扣回报。然而未来的奖励总是不确定的，为了削弱未来奖励的重要性，因此使用参数lambda，使其未来的奖励阅读全文

posted @ 2023-02-24 15:54 暗恋懒羊羊阅读(103) 评论(0) 推荐(0)

flying23

导航

公告

2.24 汇报之强化学习