摘要: 本文主要是结合PPO在大模型中RLHF微调中的应用来理解PPO算法。 一、强化学习介绍 1.1、基本要素 环境的状态S:t时刻环境的状态$S_{t}$是环境状态集中某一个状态,以RLHF中为例,序列$w1,w2,w3$是当前的状态。 个体的动作A:t时刻个体采取的动作$A_{t}$,给定序列$w1, 阅读全文
posted @ 2023-07-14 15:28 微笑sun 阅读(3673) 评论(0) 推荐(0) 编辑