摘要: 本章将会把蒙特卡洛(Monte Carlo, MC)算法和单步时序差分(one-step temporal-difference, TD(0))方法相结合。MC算法需要完成一轮交互才进行更新,而TD(0)算法则是每一步都进行更新,两者都比较极端。n步TD算法综合了这两者的特点,它可以允许交互\(n\ 阅读全文
posted @ 2024-06-25 11:23 不秃头的程序员不秃头 阅读(279) 评论(0) 推荐(0)
摘要: 时序差分(temporal difference,TD)学习是强化学习最核心和流行的方法。TD学习结合了MC和DP的思想,既类似蒙特卡洛(Monte Carlo,MC)方法直接从交互经验中学习而不需要获得环境动态信息,又类似动态规划(Dynamic Programming, DP)方法利用其他状态的 阅读全文
posted @ 2024-06-25 10:31 不秃头的程序员不秃头 阅读(525) 评论(0) 推荐(0)
摘要: 蒙特卡洛(Monte Carlo,MC)方法是第一个真正意义上用于估计价值函数和发现最优策略的学习方法。MC方法不需要掌握环境的动态信息,而是通过与环境交互获得经验进行学习。与动态规划(DP)相比,MC方法尽管也需要一个模型,但该模型只用于生成交互样本,而DP需要完整的转移概率分布。MC方法通过求样 阅读全文
posted @ 2023-12-12 17:06 不秃头的程序员不秃头 阅读(844) 评论(0) 推荐(0)
摘要: 动态规划(dynamic programming, DP)是建立在完美的MDP模型上的算法,即能够准确知道所有状态转移概率\(p(s',r|s,a)\)。动态规划的思想对于后面理解强化学习方法是非常重要的。一般来说,考虑将环境构建为有限MDP,对于连续的任务,也可以将其离散后当作有限MDP。DP的核 阅读全文
posted @ 2023-12-12 16:51 不秃头的程序员不秃头 阅读(337) 评论(0) 推荐(0)
摘要: 本章将利用有限马尔可夫决策过程(Finite Markov Decision Process,finite MDP)描述智能体与环境进行交互的过程。MDP是经典的序列决策过程,每一次决策的动作所产生的影响不仅包括了瞬时奖励(即采取的行为立刻带来的奖励),还包括由此带来的后续影响(涉及未来的奖励,类似 阅读全文
posted @ 2023-12-12 16:29 不秃头的程序员不秃头 阅读(170) 评论(0) 推荐(0)
摘要: 第二章 多臂bandits问题 强化学习区别于其他机器学习范式的一个最重要的特征在于它利用训练过程中获得的经验去评估所采取的动作的好坏,而不是给定正确的动作去指导智能体学习。前者称之为评估反馈(evaluative feedback),后者称之为指导反馈(instructive feedback)。 阅读全文
posted @ 2023-10-23 10:36 不秃头的程序员不秃头 阅读(200) 评论(0) 推荐(0)
摘要: 第一章 介绍 1 强化学习是机器学习中的一种 ​ 机器学习大致可以分为监督学习、非监督学习和强化学习。相较于前两者,强化学习更偏重于通过和环境交互从而实现目标的一种学习范式。强化学习所学习的内容本质是一种映射关系,即将所处状态映射到行为。强化学习有两个区别与其他机器学习范式的特征,试错搜索(tria 阅读全文
posted @ 2023-09-21 11:08 不秃头的程序员不秃头 阅读(69) 评论(0) 推荐(1)
摘要: 大津法(OTSU法) 介绍 大津法是由日本学者OTSU于1979年提出的一种像素级的图像分割方法,旨在利用阈值将原图像分成前景和背景两类,其思想在于最大化类间方差。当然也可以采用最小化类内方差和最大化类间方差。 原理 假定一幅灰度图像$I(i,j)$的灰度区间为$[0,L-1]$,选择一个阈值thr 阅读全文
posted @ 2022-08-17 16:39 不秃头的程序员不秃头 阅读(356) 评论(0) 推荐(0)
摘要: 图像分割系列:Normalized Cuts and Image Segmentation论文解析 论文作者简介 ​ Jianbo Shi出生于上海,本科就读于康奈尔大学计算机科学与数学专业,1994年获学士学位。其后就读于加州大学伯克利分校计算机科学专业,1998年获得博士学位,博士论文为Norm 阅读全文
posted @ 2022-08-04 17:38 不秃头的程序员不秃头 阅读(886) 评论(2) 推荐(0)
摘要: 主要介绍瑞利商的性质,并提供了证明。 阅读全文
posted @ 2022-03-21 10:29 不秃头的程序员不秃头 阅读(3180) 评论(1) 推荐(4)