随笔档案「2024年7月23日」：解密prompt系列34. RLHF之训练另辟蹊径：循... - 风雨中的小七

摘要：

前几章我们讨论了RLHF的样本构建优化和训练策略优化，这一章我们讨论两种不同的RL训练方案，分别是基于过程训练，和使用弱Teacher来监督强Student 循序渐进：PRM & ORM 想要获得过程阅读全文

posted @ 2024-07-23 07:30 风雨中的小七阅读(758) 评论(0) 推荐(0)