摘要: 面向对象设计模式(Python版)-- 行为模式 12.Command 命令模式 命令模式是一种行为设计模式,通过将执行某一动作或触发某一事件所需的所有信息封装在一个对象中,使其可以在稍后时间执行。这些信息包括方法名、拥有该方法的对象和方法的参数等。 下面以遥控器控制电灯为例,按照一般的编程方式,我 阅读全文
posted @ 2025-03-12 12:47 不秃头的程序员不秃头 阅读(77) 评论(0) 推荐(0)
摘要: 面向对象设计模式(Python版)-- 结构模式 5.Adapter 适配器 适配器模式定义: 将两个不兼容的类整合在一起使用,属于结构型模式,需要有Adaptee (被适配者)和Adaptor (适配器)两个身份。 我们经常碰到要将两个没有关系的类组合在一起使用,解决方案是修改各自类的接口,但是如 阅读全文
posted @ 2025-03-12 12:37 不秃头的程序员不秃头 阅读(21) 评论(0) 推荐(0)
摘要: 神经科学是对神经系统的多学科研究的总称,主要包括:如何调节身体功能,如何控制行为,随着时间增长而发生的发育、学习和衰老的现象,以及细胞和分子机制如何使这些功能成为可能。强化学习的最令人兴奋的方面之一是来自神经科学的证据越来越多的表明,人类和许多其他动物的神经系统实施的算法和强化学习算法在很多方面是对 阅读全文
posted @ 2024-06-25 16:41 不秃头的程序员不秃头 阅读(180) 评论(0) 推荐(0)
摘要: 在前面的章节中,主要从计算机的角度考虑强化学习算法的思想。 在本章中,将从另一个角度来看待这些算法:心理学的角度及其对动物如何学习的研究。 强化学习提供的清晰的体系架构将任务、回报和算法系统化,在理解实验数据、提出新的实验类型、理解可能对控制和测量至关重要的因素方面被证明是非常有用的。 优化长期回报 阅读全文
posted @ 2024-06-25 16:38 不秃头的程序员不秃头 阅读(253) 评论(0) 推荐(0)
摘要: 前面介绍的强化学习算法都是根据状态价值函数或者动作价值函数来选择最优策略。 本章利用参数化方法训练一个策略模型,从而根据策略模型去选择合适的动作。记策略模型的参数为\(\theta\),策略模型\(\pi(a|s,\theta)=\Pr\{A_t=a|S_t=s,\theta_t=\theta\}\ 阅读全文
posted @ 2024-06-25 16:32 不秃头的程序员不秃头 阅读(1143) 评论(0) 推荐(0)
摘要: 有效循迹是强化学习中的一个重要机制。几乎所有的时序差分(TD)学习方法都可以与之结合来提升学习效率,例如Sarsa算法、Q-learning算法。有效循迹方法将蒙特卡洛(MC)方法与TD方法相结合,使得MC方法同样可以采用逐步更新的方式,传统的蒙特卡洛MC方法需要到终止状态才进行更新。有效循迹方法具 阅读全文
posted @ 2024-06-25 16:09 不秃头的程序员不秃头 阅读(86) 评论(0) 推荐(0)
摘要: 离线策略方法可以帮助解决探索与挖掘之间的矛盾,这是强化学习中不可避免的问题。将相比于在线策略方法,将函数近似扩展到离线策略方法会变得更加困难,例如半梯度法在离线策略学习过程中会出现无法收敛的情况。本章会针对线性函数拟合进行更为深入的理论分析,并引入可学习的概念。回顾一下离线学习算法,学习目标策略\( 阅读全文
posted @ 2024-06-25 15:46 不秃头的程序员不秃头 阅读(195) 评论(0) 推荐(0)
摘要: 与第九章相比,第十章考虑的是控制问题即寻找最优策略,那么本章近似的价值函数将是动作价值函数\(q(s,a,w)\)。 1.回合制的半梯度控制 与第九章的基于的梯度下降的参数更新核心方式类似,考虑状态-动作对的映射关系\(S_t,A_t\mapsto U_t\),可得 \[w_{t+1}=w_t+\a 阅读全文
posted @ 2024-06-25 14:55 不秃头的程序员不秃头 阅读(124) 评论(0) 推荐(0)
摘要: 本书第一部分主要讲述利用列表法实现策略评估和学习,从第九章开始进入的全书的第二部分近似求解方法。对于大型状态空间的强化学习问题,列表法难以避免维数灾难,因此在有限计算资源下采用近似求解方法,例如基于参数的函数近似方法,可以更有效的解决强化学习问题。函数近似的本质就是学习状态和价值之间的映射关系。给定 阅读全文
posted @ 2024-06-25 13:49 不秃头的程序员不秃头 阅读(174) 评论(0) 推荐(0)
摘要: 本章主要从一个统一的观点对前面章节的方法进行归纳总结。可以将目前所学的强化学习方法分为两类,一类是基于模型的(model-based)方法,例如有动态规划和启发式搜索(heuristic search);另一类不需要模型的(model-free)方法,例如蒙特卡罗(Monte Carlo,MC)方法 阅读全文
posted @ 2024-06-25 11:43 不秃头的程序员不秃头 阅读(195) 评论(0) 推荐(0)