摘要: 解密prompt系列24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO 这几章我们会针对经典RLHF算法存在的不稳定,成本高,效率低等问题聊聊新方案。第一章我们先说RLHF训练策略相关的方案,包括SLiC-HF,DPO,RRHF和RSO,他们之间有很多相似之处~ 阅读全文
posted @ 2024-02-22 07:54 风雨中的小七 阅读(240) 评论(0) 推荐(0) 编辑