强化学习网络

策略网络。它的作用是接收单个智能体的局部观测,并输出一个在当前状态下应该采取各种动作的概率分布。智能体根据这个分布进行采样,得到最终执行的动作。

  • 输入: 智能体 *i* 在时间步 *t* 的局部观测。

  • 输出: 一个动作概率分布。对于离散动作空间,输出是一个softmax概率向量;对于连续动作空间,通常输出一个高斯分布的均值和方差。

价值网络。它的作用是评估在某个全局状态下,所有智能体遵循当前联合策略所能获得的期望累积回报。这个评估值用于指导策略网络的更新方向。

  • 输入: 时间步 *t* 的全局状态。这是MAPPO“集中式训练”的关键所在。这个状态信息包含了所有智能体的相关信息,在训练时是可获得的(例如从模拟器中)。

  • 输出: 一个标量值,代表了从当前全局状态开始,未来能获得的总回报的期望值。

 

训练阶段:

  1. 环境交互: 每个智能体用自己的策略网络,根据局部观测选择动作,形成联合动作。环境转到下一状态,并给出全局奖励。

  2. 存储经验: 将经验元组 (全局状态, 所有智能体的局部观测, 所有智能体的动作, 全局奖励, 下一全局状态) 存入一个共享的回放缓冲区。

  3. 网络更新:

    • 更新价值网络: 从缓冲区采样一批数据。价值网络根据全局状态预测价值,然后通过最小化其预测值与实际回报之间的误差来更新(优化预测出来的价值)

    • 更新策略网络: 同样采样一批数据。对于每个智能体,使用价值网络计算出的优势函数来评估其动作的好坏。然后使用PPO的裁剪目标函数来更新策略网络,增加带来正优势的动作的概率,降低带来负优势的动作的概率。PPO的裁剪机制确保了更新的稳定性。(优化状态转移矩阵)

执行阶段:

  • 只需要策略网络。每个智能体像训练时一样,根据自身的局部观测,通过策略网络输出动作并执行。价值网络在此阶段不再需要。

 

image

 

posted @ 2025-09-30 10:13  wangssd  阅读(13)  评论(0)    收藏  举报