会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Dream
博客园
首页
新随笔
联系
管理
订阅
2023年11月13日
TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记
摘要: (1) PPO Trainer TRL支持PPO Trainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例,请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原
阅读全文
posted @ 2023-11-13 15:44 kkzhang
阅读(668)
评论(0)
推荐(0)
编辑
公告