摘要: 强化学习的标准框架是 马尔可夫决策过程(MDP),它由五个基本元素构成(不可或缺的部分):状态(S)、动作(A)、状态转移(P)、奖励(R)和折扣因子(γ)。 状态(S):描述了环境是什么样子。 动作(A):智能体可以做什么。 状态转移(P):环境如何响应动作。 奖励(R):定义了“好”与“坏”,是 阅读全文
posted @ 2025-10-09 11:06 wangssd 阅读(201) 评论(0) 推荐(0)
摘要: Gym库(https://gym.openai.com) 是OpenAI推出的强化学习实验环境库。它用Python语言实现了离散之间智能体-环境接口中的环境部分。每个环境就代表着一类强化学习问题,用户通过设计和训练自己的智能体来解决这些强化学习问题。OpenAI 已经将 Gym 的维护权移交给了 F 阅读全文
posted @ 2025-10-09 10:59 wangssd 阅读(251) 评论(0) 推荐(0)
摘要: 多智能体强化学习算法分为 中心式和分散式 中心式的思想是考虑一个合作式的环境,直接将单智能体算法扩展,让其直接学习一个联合动作的输出,但是并不好给出单个智能体该如何进行决策。分散式是每个智能体独立学习自己的奖励函数,对于每个智能体来说,其它智能体就是环境的一部分,因此往往需要去考虑环境的非平稳态,并 阅读全文
posted @ 2025-10-09 08:51 wangssd 阅读(304) 评论(0) 推荐(0)