2023 年 6月 14 日随笔档案 - 风生水起

2023年6月14日

为什么RLHF中，PPO需要Critic模型而不是直接使用RewardModel

摘要：在强化学习中，PPO（Proximal Policy Optimization）算法是一种基于策略梯度的方法，用于训练强化学习智能体。PPO算法中引入Critic模型的主要目的是为了提供一个价值估计器，用于评估状态或状态动作对的价值，从而辅助策略的更新和优化。虽然奖励模型（Reward Model 阅读全文

posted @ 2023-06-14 18:13 风生水起阅读(5736) 评论(1) 推荐(3)