随笔档案「2023年2月」 - 暗恋懒羊羊

2.24 汇报之强化学习

摘要：1、强化学习的基础理解：强化学习中的状态随机性有两个来源：动作的执行是根据策略函数随机抽取的、下一个状态是根据策略函数随机抽样的。总回报是所有步骤的奖励之和，希望强化学习具有前瞻性，所以提出了折扣回报。然而未来的奖励总是不确定的，为了削弱未来奖励的重要性，因此使用参数lambda，使其未来的奖励阅读全文

posted @ 2023-02-24 15:54 暗恋懒羊羊阅读(109) 评论(0) 推荐(0)

2.20 Q_Learning 和Sarsa 的区别

摘要：二者都是基于Qtable的算法，其中Qlearning属于off-policy，Sarsa属于on-policy。算法伪代码：二者主要区别是更新Qtable的方式不同：阅读全文

posted @ 2023-02-20 09:29 暗恋懒羊羊阅读(59) 评论(0) 推荐(0)

2.18随笔（强化学习）

摘要：论文阅读： 1、变循环发动机智能控制器设计胡雪兰该文章中将强化学习中的确定性策略梯度（DPG）算法融合进AC（演员-评论家）框架中，用来对变循环发动机（VCE）进行控制研究。算法结构图如下所示：在文章中详细介绍了经典的确定性策略梯度算法和基于优先回放机制的确定性策略梯度算法。给出了两个算法的不阅读全文

posted @ 2023-02-18 21:12 暗恋懒羊羊阅读(155) 评论(0) 推荐(0)

flying23

导航

公告

02 2023 档案

2.24 汇报之强化学习

2.20 Q_Learning 和Sarsa 的区别

2.18随笔（强化学习）