2023年6月14日
摘要: 在强化学习中,PPO(Proximal Policy Optimization)算法是一种基于策略梯度的方法,用于训练强化学习智能体。PPO算法中引入Critic模型的主要目的是为了提供一个价值估计器,用于评估状态或状态动作对的价值,从而辅助策略的更新和优化。 虽然奖励模型(Reward Model 阅读全文
posted @ 2023-06-14 18:13 风生水起 阅读(5577) 评论(1) 推荐(3)