摘要:
马尔可夫决策过程(Markov Decision Process, MDP)是强化学*问题的数学框架。MDP通过五元组 (S, A, P, R, γ) 来描述,其中: S: 状态空间,表示所有可能状态的集合。 A: 动作空间,表示智能体可以执行的所有动作的集合。 P: 状态转移概率矩阵,P(s'|s 阅读全文
posted @ 2025-09-30 10:37
wangssd
阅读(69)
评论(0)
推荐(0)
摘要:
一、介绍 1. Q-learning(1989-1992) 背景:属于经典的表格型(tabular)强化学习算法,基于时序差分(TD)学习。 特点:用一张 Q 表格存储“状态-动作”价值,适用于离散状态和动作的小规模问题。 局限:无法处理连续状态或高维状态(如像素图像),因为表格无法泛化。Q表的规模 阅读全文
posted @ 2025-09-30 10:13
wangssd
阅读(37)
评论(0)
推荐(0)
摘要:
深度学习是一种技术方法,大模型是这种方法的产物和应用,而强化学习是一种解决问题的框架(方法论和控制系统),它可以利用深度学习和大模型作为其强大的工具。 深度学习: 是一个复杂的、多层的“神经网络”,能够从海量数据(比如数百万张游戏画面)中学习并识别出复杂的模式(比如什么是“敌人”,什么是“奖励”)。 阅读全文
posted @ 2025-09-30 10:05
wangssd
阅读(90)
评论(0)
推荐(0)

浙公网安备 33010602011771号