上一页 1 2 3 4 5 6 ··· 40 下一页
摘要: 背景 现在的推荐系统存在两个问题: 1. 为了平衡效果和效率,现在的推荐系统都是采用多阶段级联的架构:召回->粗排->精排,这种漏斗型框架的问题是:前链路会制约后链路的上限(一旦前链路过滤了某个item,这个item就不会出现在后面的链路中,即使后链路认为这个item收益很高) 2. 现在推荐系统基 阅读全文
posted @ 2025-04-23 21:01 AI_Engineer 阅读(1820) 评论(0) 推荐(0)
摘要: DPO算法是从RLHF演化过来的,介绍DPO算法之前,我们先回顾一下RLHF的训练流程,RLHF的训练可以分为两个步骤: 1. 训练 reward model(训练数据是同一个prompt的2个回答,让人或GPT4标注哪个回答更好),reward model会去优化如下的loss: \[\max_{ 阅读全文
posted @ 2025-04-23 11:05 AI_Engineer 阅读(133) 评论(0) 推荐(0)
摘要: 我们前面介绍到instructGPT训练过程可以大概分为3个步骤: Step1:在监督数据集上微调模型(SFT) Step2: 训练reward model Step3:通过RLHF训练出符合人类偏好的模型 我们知道,RLHF的目标是减少模型的偏见,产出符合人类偏好的回答,接下来我们详细介绍一下RL 阅读全文
posted @ 2025-04-21 16:53 AI_Engineer 阅读(140) 评论(0) 推荐(0)
摘要: transform为什么需要位置编码? transform主要被引用在NLP任务中,对于任何一门语言,单词在句子中的位置以及排列顺序是非常重要的,不像RNN,transform本身没有捕获输入的单词的位置的能力,因此需要在输入时加上位置编码,让transform感受到输入单词的位置信息 怎么进行位置 阅读全文
posted @ 2025-04-13 11:20 AI_Engineer 阅读(68) 评论(0) 推荐(0)
摘要: Self - Attention(自注意力机制)的核心公式为: \[ \text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V \] 以下是对公式中各部分的详细解释: 符号含义: $Q$(Qu 阅读全文
posted @ 2025-04-10 11:20 AI_Engineer 阅读(100) 评论(0) 推荐(0)
摘要: 背景 前面我们介绍了策略梯度算法,但是其存在两个缺点: 1. 每条采样的数据只能更新模型一次,采样数据的成本高 2. 由于没有对梯度加限制,训练不稳定,容易陷入局部最优 下面我们看一下PPO算法是如何解决这两个问题的 重要性采样 假设我们有一个函数 f(x),要计算从分布 p 采样 x,再把 x 代 阅读全文
posted @ 2025-04-07 19:57 AI_Engineer 阅读(204) 评论(0) 推荐(0)
摘要: 策略梯度算法 在强化学习领域,早期有基于值函数的方法,如 Q-learning 等,这些方法通过估计状态-动作对的值函数来确定最优策略。然而,当动作空间是连续的或者非常大时,基于值函数的方法会面临一些挑战。REINFORCE 算法,也被称为策略梯度算法(Policy Gradient Algorit 阅读全文
posted @ 2025-04-02 14:40 AI_Engineer 阅读(1028) 评论(1) 推荐(0)
摘要: 背景 AlphaZero 是由 DeepMind 开发的一种通用强化学习算法,于 2017 年首次提出(2018年发于science)。通过深度神经网络与蒙特卡洛树搜索(MCTS)的结合,无需依赖特定的领域知识,只需通过自对弈的方式训练模型,在围棋、国际象棋、将棋等复杂策略游戏中展现出超越人类顶尖选 阅读全文
posted @ 2025-03-28 17:59 AI_Engineer 阅读(267) 评论(0) 推荐(0)
摘要: 问题 给定用户特征,预估未来n天的付费概率、付费金额 数据分布 长尾分布:90% 用户不付费,10% 用户付费 付费金额的范围非常广 建模方案 1. 直接用MSE建模LTV 缺点:由于用户LTR分布是0值和连续值的混合,而MSE假设label服从正态分布,容易被0值主导,模型倾向于预估一个接近0的值 阅读全文
posted @ 2025-03-28 15:42 AI_Engineer 阅读(220) 评论(0) 推荐(0)
摘要: 1. 加权和 \[merge\_score = \sum_{i} weight_{i} \times pred\_score_{i}\] 优点:非常直观,认为哪个目标重要调大这个目标的融合公式就可以了 缺点: 1. 如果不同目标尺度差异过大会导致调参困难 2. 对所有用户都一样,没有用户粒度的个性化 阅读全文
posted @ 2025-03-03 17:20 AI_Engineer 阅读(196) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 40 下一页