摘要:
1、强化学习的基础理解: 强化学习中的状态随机性有两个来源:动作的执行是根据策略函数随机抽取的、下一个状态是根据策略函数随机抽样的。 总回报是所有步骤的奖励之和,希望强化学习具有前瞻性,所以提出了折扣回报。然而未来的奖励总是不确定的,为了削弱未来奖励的重要性,因此使用参数lambda,使其未来的奖励 阅读全文
posted @ 2023-02-24 15:54 暗恋懒羊羊 阅读(93) 评论(0) 推荐(0)
|
|
|
|
摘要:
1、强化学习的基础理解: 强化学习中的状态随机性有两个来源:动作的执行是根据策略函数随机抽取的、下一个状态是根据策略函数随机抽样的。 总回报是所有步骤的奖励之和,希望强化学习具有前瞻性,所以提出了折扣回报。然而未来的奖励总是不确定的,为了削弱未来奖励的重要性,因此使用参数lambda,使其未来的奖励 阅读全文
posted @ 2023-02-24 15:54 暗恋懒羊羊 阅读(93) 评论(0) 推荐(0) |
|