摘要: (1) PPO Trainer TRL支持PPO Trainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例,请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原 阅读全文
posted @ 2023-11-13 15:44 kkzhang 阅读(668) 评论(0) 推荐(0) 编辑