上一页 1 2 3 4 5 6 ··· 41 下一页
摘要: 背景 百度在线广告包含不同的场景,如搜索广告、信息流广告,通个场景也需要建模不同的目标,如CTR、CVR,构建统一的多场景多任务精排模型存在两大挑战: 不同目标之间数据不平衡。比如CTR和CVR,如果同时训练这俩目标,模型很可能偏向于CTR,导致CVR的指标受损。 embedding耦合。多任务或多 阅读全文
posted @ 2025-05-01 20:26 AI_Engineer 阅读(361) 评论(0) 推荐(0)
摘要: 背景 现在的推荐系统存在两个问题: 1. 为了平衡效果和效率,现在的推荐系统都是采用多阶段级联的架构:召回->粗排->精排,这种漏斗型框架的问题是:前链路会制约后链路的上限(一旦前链路过滤了某个item,这个item就不会出现在后面的链路中,即使后链路认为这个item收益很高) 2. 现在推荐系统基 阅读全文
posted @ 2025-04-23 21:01 AI_Engineer 阅读(2492) 评论(0) 推荐(0)
摘要: DPO算法是从RLHF演化过来的,介绍DPO算法之前,我们先回顾一下RLHF的训练流程,RLHF的训练可以分为两个步骤: 1. 训练 reward model(训练数据是同一个prompt的2个回答,让人或GPT4标注哪个回答更好),reward model会去优化如下的loss: \[\max_{ 阅读全文
posted @ 2025-04-23 11:05 AI_Engineer 阅读(187) 评论(0) 推荐(0)
摘要: 我们前面介绍到instructGPT训练过程可以大概分为3个步骤: Step1:在监督数据集上微调模型(SFT) Step2: 训练reward model Step3:通过RLHF训练出符合人类偏好的模型 我们知道,RLHF的目标是减少模型的偏见,产出符合人类偏好的回答,接下来我们详细介绍一下RL 阅读全文
posted @ 2025-04-21 16:53 AI_Engineer 阅读(203) 评论(0) 推荐(0)
摘要: transform为什么需要位置编码? transform主要被引用在NLP任务中,对于任何一门语言,单词在句子中的位置以及排列顺序是非常重要的,不像RNN,transform本身没有捕获输入的单词的位置的能力,因此需要在输入时加上位置编码,让transform感受到输入单词的位置信息 怎么进行位置 阅读全文
posted @ 2025-04-13 11:20 AI_Engineer 阅读(97) 评论(0) 推荐(0)
摘要: Self - Attention(自注意力机制)的核心公式为: \[ \text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V \] 以下是对公式中各部分的详细解释: 符号含义: $Q$(Qu 阅读全文
posted @ 2025-04-10 11:20 AI_Engineer 阅读(204) 评论(0) 推荐(0)
摘要: 背景 前面我们介绍了策略梯度算法,但是其存在两个缺点: 1. 每条采样的数据只能更新模型一次,采样数据的成本高 2. 由于没有对梯度加限制,训练不稳定,容易陷入局部最优 下面我们看一下PPO算法是如何解决这两个问题的 重要性采样 假设我们有一个函数 f(x),要计算从分布 p 采样 x,再把 x 代 阅读全文
posted @ 2025-04-07 19:57 AI_Engineer 阅读(291) 评论(0) 推荐(0)
摘要: 策略梯度算法 在强化学习领域,早期有基于值函数的方法,如 Q-learning 等,这些方法通过估计状态-动作对的值函数来确定最优策略。然而,当动作空间是连续的或者非常大时,基于值函数的方法会面临一些挑战。REINFORCE 算法,也被称为策略梯度算法(Policy Gradient Algorit 阅读全文
posted @ 2025-04-02 14:40 AI_Engineer 阅读(1589) 评论(1) 推荐(0)
摘要: 背景 AlphaZero 是由 DeepMind 开发的一种通用强化学习算法,于 2017 年首次提出(2018年发于science)。通过深度神经网络与蒙特卡洛树搜索(MCTS)的结合,无需依赖特定的领域知识,只需通过自对弈的方式训练模型,在围棋、国际象棋、将棋等复杂策略游戏中展现出超越人类顶尖选 阅读全文
posted @ 2025-03-28 17:59 AI_Engineer 阅读(409) 评论(0) 推荐(0)
摘要: 问题 给定用户特征,预估未来n天的付费概率、付费金额 数据分布 长尾分布:90% 用户不付费,10% 用户付费 付费金额的范围非常广 建模方案 1. 直接用MSE建模LTV 缺点:由于用户LTR分布是0值和连续值的混合,而MSE假设label服从正态分布,容易被0值主导,模型倾向于预估一个接近0的值 阅读全文
posted @ 2025-03-28 15:42 AI_Engineer 阅读(363) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 41 下一页