摘要:
这几章我们会针对经典RLHF算法存在的不稳定,成本高,效率低等问题聊聊新方案。第一章我们先说RLHF训练策略相关的方案,包括SLiC-HF,DPO,RRHF和RSO,他们之间有很多相似之处~ 阅读全文
这几章我们会针对经典RLHF算法存在的不稳定,成本高,效率低等问题聊聊新方案。第一章我们先说RLHF训练策略相关的方案,包括SLiC-HF,DPO,RRHF和RSO,他们之间有很多相似之处~ 阅读全文
posted @ 2024-02-22 07:54
风雨中的小七
阅读(1216)
评论(0)
推荐(0)

浙公网安备 33010602011771号