AI_Engineer - 博客园

2025年4月23日

摘要：背景现在的推荐系统存在两个问题： 1. 为了平衡效果和效率，现在的推荐系统都是采用多阶段级联的架构：召回->粗排->精排，这种漏斗型框架的问题是：前链路会制约后链路的上限（一旦前链路过滤了某个item，这个item就不会出现在后面的链路中，即使后链路认为这个item收益很高） 2. 现在推荐系统基阅读全文

posted @ 2025-04-23 21:01 AI_Engineer 阅读(1820) 评论(0) 推荐(0)

LLM中的DPO

摘要： DPO算法是从RLHF演化过来的，介绍DPO算法之前，我们先回顾一下RLHF的训练流程，RLHF的训练可以分为两个步骤： 1. 训练 reward model（训练数据是同一个prompt的2个回答，让人或GPT4标注哪个回答更好），reward model会去优化如下的loss： \[\max_{ 阅读全文

posted @ 2025-04-23 11:05 AI_Engineer 阅读(133) 评论(0) 推荐(0)

2025年4月21日

LLM中的RLHF

摘要：我们前面介绍到instructGPT训练过程可以大概分为3个步骤： Step1：在监督数据集上微调模型（SFT） Step2: 训练reward model Step3：通过RLHF训练出符合人类偏好的模型我们知道，RLHF的目标是减少模型的偏见，产出符合人类偏好的回答，接下来我们详细介绍一下RL 阅读全文

posted @ 2025-04-21 16:53 AI_Engineer 阅读(140) 评论(0) 推荐(0)

2025年4月13日

transfrom中的位置编码

摘要： transform为什么需要位置编码？ transform主要被引用在NLP任务中，对于任何一门语言，单词在句子中的位置以及排列顺序是非常重要的，不像RNN，transform本身没有捕获输入的单词的位置的能力，因此需要在输入时加上位置编码，让transform感受到输入单词的位置信息怎么进行位置阅读全文

posted @ 2025-04-13 11:20 AI_Engineer 阅读(68) 评论(0) 推荐(0)

2025年4月10日

self-attention

摘要： Self - Attention（自注意力机制）的核心公式为： \[ \text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V \] 以下是对公式中各部分的详细解释：符号含义： $Q$（Qu 阅读全文

posted @ 2025-04-10 11:20 AI_Engineer 阅读(100) 评论(0) 推荐(0)

2025年4月7日

近端策略优化（PPO）

摘要：背景前面我们介绍了策略梯度算法，但是其存在两个缺点： 1. 每条采样的数据只能更新模型一次，采样数据的成本高 2. 由于没有对梯度加限制，训练不稳定，容易陷入局部最优下面我们看一下PPO算法是如何解决这两个问题的重要性采样假设我们有一个函数 f(x)，要计算从分布 p 采样 x，再把 x 代阅读全文

posted @ 2025-04-07 19:57 AI_Engineer 阅读(204) 评论(0) 推荐(0)

2025年4月2日

策略梯度算法reinforce算法原理理解和代码实现

摘要：策略梯度算法在强化学习领域，早期有基于值函数的方法，如 Q-learning 等，这些方法通过估计状态-动作对的值函数来确定最优策略。然而，当动作空间是连续的或者非常大时，基于值函数的方法会面临一些挑战。REINFORCE 算法，也被称为策略梯度算法（Policy Gradient Algorit 阅读全文

posted @ 2025-04-02 14:40 AI_Engineer 阅读(1028) 评论(1) 推荐(0)

2025年3月28日

强化学习入门：使用AlphaZero算法实现井字棋web人机对战游戏

摘要：背景 AlphaZero 是由 DeepMind 开发的一种通用强化学习算法，于 2017 年首次提出（2018年发于science）。通过深度神经网络与蒙特卡洛树搜索（MCTS）的结合，无需依赖特定的领域知识，只需通过自对弈的方式训练模型，在围棋、国际象棋、将棋等复杂策略游戏中展现出超越人类顶尖选阅读全文

posted @ 2025-03-28 17:59 AI_Engineer 阅读(267) 评论(0) 推荐(0)

google LTV预估论文《A Deep Probabilistic Model for Customer Lifetime Value Prediction》

摘要：问题给定用户特征，预估未来n天的付费概率、付费金额数据分布长尾分布：90% 用户不付费，10% 用户付费付费金额的范围非常广建模方案 1. 直接用MSE建模LTV 缺点：由于用户LTR分布是0值和连续值的混合，而MSE假设label服从正态分布，容易被0值主导，模型倾向于预估一个接近0的值阅读全文

posted @ 2025-03-28 15:42 AI_Engineer 阅读(220) 评论(0) 推荐(0)

2025年3月3日

多目标score融合公式

摘要： 1. 加权和 \[merge\_score = \sum_{i} weight_{i} \times pred\_score_{i}\] 优点：非常直观，认为哪个目标重要调大这个目标的融合公式就可以了缺点： 1. 如果不同目标尺度差异过大会导致调参困难 2. 对所有用户都一样，没有用户粒度的个性化阅读全文

posted @ 2025-03-03 17:20 AI_Engineer 阅读(196) 评论(0) 推荐(0)

xd_xumaomao

公告