摘要:
背景 现在的推荐系统存在两个问题: 1. 为了平衡效果和效率,现在的推荐系统都是采用多阶段级联的架构:召回->粗排->精排,这种漏斗型框架的问题是:前链路会制约后链路的上限(一旦前链路过滤了某个item,这个item就不会出现在后面的链路中,即使后链路认为这个item收益很高) 2. 现在推荐系统基 阅读全文
posted @ 2025-04-23 21:01
AI_Engineer
阅读(1820)
评论(0)
推荐(0)
摘要:
DPO算法是从RLHF演化过来的,介绍DPO算法之前,我们先回顾一下RLHF的训练流程,RLHF的训练可以分为两个步骤: 1. 训练 reward model(训练数据是同一个prompt的2个回答,让人或GPT4标注哪个回答更好),reward model会去优化如下的loss: \[\max_{ 阅读全文
posted @ 2025-04-23 11:05
AI_Engineer
阅读(133)
评论(0)
推荐(0)