随笔档案「2023年7月14日」：大模型入门（七）—— RLHF中的PPO算法理解 ... - 微笑sun

2023年7月14日

摘要：本文主要是结合PPO在大模型中RLHF微调中的应用来理解PPO算法。一、强化学习介绍 1.1、基本要素环境的状态S：t时刻环境的状态$S_{t}$是环境状态集中某一个状态，以RLHF中为例，序列$w1,w2,w3$是当前的状态。个体的动作A：t时刻个体采取的动作$A_{t}$，给定序列$w1, 阅读全文

posted @ 2023-07-14 15:28 微笑sun 阅读(11326) 评论(0) 推荐(0)

微笑sun

公告