摘要:1、强化学习的基础理解: 强化学习中的状态随机性有两个来源:动作的执行是根据策略函数随机抽取的、下一个状态是根据策略函数随机抽样的。 总回报是所有步骤的奖励之和,希望强化学习具有前瞻性,所以提出了折扣回报。然而未来的奖励总是不确定的,为了削弱未来奖励的重要性,因此使用参数lambda,使其未来的奖励
阅读全文
posted @ 2023-02-24 15:54
|
|
|
02 2023 档案
摘要:1、强化学习的基础理解: 强化学习中的状态随机性有两个来源:动作的执行是根据策略函数随机抽取的、下一个状态是根据策略函数随机抽样的。 总回报是所有步骤的奖励之和,希望强化学习具有前瞻性,所以提出了折扣回报。然而未来的奖励总是不确定的,为了削弱未来奖励的重要性,因此使用参数lambda,使其未来的奖励
阅读全文
posted @ 2023-02-24 15:54
摘要:二者都是基于Qtable的算法,其中Qlearning属于off-policy,Sarsa属于on-policy。 算法伪代码: 二者主要区别是更新Qtable的方式不同:
阅读全文
posted @ 2023-02-20 09:29
摘要:论文阅读: 1、变循环发动机智能控制器设计 胡雪兰 该文章中将强化学习中的确定性策略梯度(DPG)算法融合进AC(演员-评论家)框架中,用来对变循环发动机(VCE)进行控制研究。算法结构图如下所示: 在文章中详细介绍了经典的确定性策略梯度算法和基于优先回放机制的确定性策略梯度算法。给出了两个算法的不
阅读全文
posted @ 2023-02-18 21:12
|
|