2023 年 11月 13 日随笔档案 - kkzhang

2023年11月13日

TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记

摘要： (1) PPO Trainer TRL支持PPO Trainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例，请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原阅读全文

posted @ 2023-11-13 15:44 kkzhang 阅读(4065) 评论(0) 推荐(0)

Dream

公告