摘要: 1. Embedding是什么 Embedding 就是用一个数值向量“表示”一个对象(Object)的方法 解读1:左边例子,从 king 到 queen 的向量和从 man 到 woman 的向量,无论从方向还是尺度来说它们都非常接近。 解读2:右边例子也很典型,从 walking 到 walk 阅读全文
posted @ 2025-02-09 12:48 稳住·能赢 阅读(351) 评论(0) 推荐(0)
摘要: 1. 特征与工程 (1)特征就是对具体行为的抽象,但是抽象过程会造成信息的损失 ① 因为具体的推荐行为和场景中包含大量原始的场景、图片和状态信息,保存所有信息的存储空间过大,我们根本无法实现。 ② 因为具体的推荐场景中包含大量冗余的、无用的信息,把它们都考虑进来甚至会损害模型的泛化能力。 (2)特征 阅读全文
posted @ 2025-02-09 12:47 稳住·能赢 阅读(73) 评论(0) 推荐(0)
摘要: 1. 深度学习推荐系统基础概念 2. 从0到1搭建深度学习推荐系统 -- 开源项目Sparrow RecSys实操(以Mac为例) (1)安装Scala 2.11(务必是2.11大版本,否则与开源项目设置的版本号不匹配,会有执行失败的问题) brew update brew install scal 阅读全文
posted @ 2025-02-09 12:47 稳住·能赢 阅读(42) 评论(0) 推荐(0)
摘要: 1. Facebook的深度学习推荐系统 2014年,Facebook发表了广告推荐系统论文GBDT+LR。严格意义上讲,这并不属于深度学习的范畴,但在当时,这种方式进行特征的自动组合和筛选,开启了特征工程模型化、自动化的新阶段。并且其在2014年就采用的在线学习、在线数据整合、负样本降采样等技术至 阅读全文
posted @ 2025-02-09 12:46 稳住·能赢 阅读(101) 评论(0) 推荐(0)
摘要: 物品冷启动评价指标 物品冷启动目标 精准推荐:新物品的推荐效果往往比较差 激励发布:新物品得到较多流量后,更容易激励作者。 挖掘高潜:从新物品中挖掘高质量物品。 评价指标 作者指标:发布渗透量、人均发布量等 用户指标:新笔记的交互率、大盘指标(比如日活、月活、时长) 内容指标:新物品中的高热笔记占比 阅读全文
posted @ 2025-02-09 12:43 稳住·能赢 阅读(122) 评论(0) 推荐(0)
摘要: 重排是精排的后处理操作。 物品多样性 相似度度量 基于物品属性标签 基于物品向量表征 (1)双塔模型的物品塔,但是因为头部效应问题导致学不好物品向量表征 (2)基于图文内容学习 CLIP - 基于图文内容的物品向量表征 原理 对于图片-文本二元组数据进行对比学习,预测图文是否匹配。优点是:无需人工标 阅读全文
posted @ 2025-02-09 12:35 稳住·能赢 阅读(53) 评论(0) 推荐(0)
摘要: 简单平均 lastN特征 把用户最近n次交互的物品Embedding向量取平均,作为一个用户特征使用。 适用于召回双塔模型、粗排三塔模型、精排模型。 DIN 原理 本质:用加权平均代替平均,也就是注意力机制。 注意力机制不适用于召回双塔和粗排三塔。因为需要用到候选物品,而用户塔看不到候选物品。 缺点 阅读全文
posted @ 2025-02-09 12:29 稳住·能赢 阅读(59) 评论(0) 推荐(0)
摘要: FM 线性模型 设有\(d\)个特征,记为:\(\pmb{X} = [x_1, x_2, ... , x_d]\),则线性模型的表达式为: \[p = b + \sum_{i=1}^d w_i · x_i \]其中,\(b\)为偏置,总共\(d+1\)个模型参数。\(p\)是预测结果,也就是特征和权 阅读全文
posted @ 2025-02-09 12:29 稳住·能赢 阅读(100) 评论(0) 推荐(0)
摘要: 精排 - 多目标模型 简单的多目标模型 模型结构 损失函数和训练 问题 数据集通常是类别及不平衡的,比如总共1000次曝光,其中只有100次点击,10次收藏,收藏次数对于曝光来说相差极大。 解决方案:通常使用负样本降采样的方法。 预估校准:负样本降采样之后,就改变了各个目标的实际分布,所以模型的预估 阅读全文
posted @ 2025-02-09 12:29 稳住·能赢 阅读(56) 评论(0) 推荐(0)
摘要: ItemCF召回 ItemCF原理 \[\sum_{j} like(user, \, item_j) · sim(item_j, \, item_{候选物品}) \tag{1} \]用图表示为: 物品相似度计算方法 \[sim(i_1, i_2) = \frac{|V|}{\sqrt{|W_1| · 阅读全文
posted @ 2025-02-09 00:50 稳住·能赢 阅读(173) 评论(0) 推荐(0)