摘要:
马尔可夫决策过程(Markov Decision Process, MDP)是强化学*问题的数学框架。MDP通过五元组 (S, A, P, R, γ) 来描述,其中: S: 状态空间,表示所有可能状态的集合。 A: 动作空间,表示智能体可以执行的所有动作的集合。 P: 状态转移概率矩阵,P(s'|s 阅读全文
posted @ 2025-09-30 10:37
wangssd
阅读(50)
评论(0)
推荐(0)
摘要:
策略网络。它的作用是接收单个智能体的局部观测,并输出一个在当前状态下应该采取各种动作的概率分布。智能体根据这个分布进行采样,得到最终执行的动作。 输入: 智能体 *i* 在时间步 *t* 的局部观测。 输出: 一个动作概率分布。对于离散动作空间,输出是一个softmax概率向量;对于连续动作空间,通 阅读全文
posted @ 2025-09-30 10:13
wangssd
阅读(25)
评论(0)
推荐(0)
摘要:
深度学习是一种技术方法,大模型是这种方法的产物和应用,而强化学习是一种解决问题的框架(方法论和控制系统),它可以利用深度学习和大模型作为其强大的工具。 深度学习: 是一个复杂的、多层的“神经网络”,能够从海量数据(比如数百万张游戏画面)中学习并识别出复杂的模式(比如什么是“敌人”,什么是“奖励”)。 阅读全文
posted @ 2025-09-30 10:05
wangssd
阅读(59)
评论(0)
推荐(0)

浙公网安备 33010602011771号