随笔档案「2025年9月30日」：强化学* *端策略优化（ppo） ... - wangssd

2025年9月30日

摘要：马尔可夫决策过程（Markov Decision Process, MDP）是强化学*问题的数学框架。MDP通过五元组 (S, A, P, R, γ) 来描述，其中： S：状态空间，表示所有可能状态的集合。 A：动作空间，表示智能体可以执行的所有动作的集合。 P：状态转移概率矩阵，P(s'|s 阅读全文

posted @ 2025-09-30 10:37 wangssd 阅读(69) 评论(0) 推荐(0)

强化学习网络 Q-learning、DQN、PPO

摘要：一、介绍 1. Q-learning（1989-1992）背景：属于经典的表格型（tabular）强化学习算法，基于时序差分（TD）学习。特点：用一张 Q 表格存储“状态-动作”价值，适用于离散状态和动作的小规模问题。局限：无法处理连续状态或高维状态（如像素图像），因为表格无法泛化。Q表的规模阅读全文

posted @ 2025-09-30 10:13 wangssd 阅读(37) 评论(0) 推荐(0)

强化学习、深度学习、大模型、智能体

摘要：深度学习是一种技术方法，大模型是这种方法的产物和应用，而强化学习是一种解决问题的框架（方法论和控制系统），它可以利用深度学习和大模型作为其强大的工具。深度学习：是一个复杂的、多层的“神经网络”，能够从海量数据（比如数百万张游戏画面）中学习并识别出复杂的模式（比如什么是“敌人”，什么是“奖励”）。阅读全文

posted @ 2025-09-30 10:05 wangssd 阅读(90) 评论(0) 推荐(0)

wangssd

公告