摘要:
1. 准备工作 1. 申请个人域名 免费方式:从 ClouDNS.net上创建账号申请即可,右上角可以选择中文。如果实在不会操作,可以参考:教你免费注册一个ClouDNS永久域名(保姆级教程) ,还可以自行搜索或问大模型或留言。 付费方式:从 主流域名注册商注册,国外:namesilo 比较便宜,国 阅读全文
posted @ 2025-02-09 15:00
稳住·能赢
阅读(175)
评论(0)
推荐(0)
摘要:
市场竞价预估 市场竞价预估的目标是预测每一次请求的市场价格,通常ADX和DSP都使用二价计费,因此市场价格也就是二价(计费价)。 准确地预测市场价格是一个重要的任务。对于ADX来说,每一次广告的请求的计费价都是可知的,因为可以轻易地用回归的方法拟合出。ADX可以用来预估每个DSP的竞价,从而选择要发 阅读全文
posted @ 2025-02-09 13:06
稳住·能赢
阅读(174)
评论(0)
推荐(0)
摘要:
本文主要记录计算广告领域中媒体方增加收入的过程中遇到的问题和解决思路。 广告预加载 问题描述 广告请求本身是一个比较耗时的过程,主要在于网络通信、DSP检索排序广告并出价、ADX竞价等时间。对ADX和DSP而言,希望能放宽时延,以充分发挥召回和排序模型的性能。对媒体而言,希望能减少时延,尽快返回,以 阅读全文
posted @ 2025-02-09 13:05
稳住·能赢
阅读(116)
评论(0)
推荐(0)
摘要:
本文主要记录计算广告领域DSP的基础功能和工作中用到的技术与策略简述。由于内容太多,具体方法总结会另写文章介绍。 合约广告(Guaranteed Delivery) 流量预测(Traffic Forecasting) 给定一组受众标签组合和一个ECPM阈值,预估将来某个时间段内符合这些受众标签组合的 阅读全文
posted @ 2025-02-09 13:04
稳住·能赢
阅读(164)
评论(0)
推荐(0)
摘要:
本文主要记录计算广告领域ADX的基础功能和工作中用到的策略。 询价 低价(市场保留价,Market Reserve Price) 公开底价 密封底价 多重低价 静态多重低价 动态多重低价 智能询价(Selective Call Out) 随着接入的DSP越来越多,媒体方的每次广告请求,对于ADX来说 阅读全文
posted @ 2025-02-09 13:04
稳住·能赢
阅读(270)
评论(0)
推荐(0)
摘要:
本文主要记录一下学习推荐模型需要弄清楚的基础概念和知识点汇总,更全面的知识推荐阅读书籍: 《统计学习方法 第2版》- 李航 著 《程序员的数学2 概率统计》- 平冈和幸 堀玄 著 《程序员的数学3 线性代数》- 平冈和幸 堀玄 著 概率 概率分布(单个随机变量) 随机事件数量化之后称为随机变量,随机 阅读全文
posted @ 2025-02-09 13:04
稳住·能赢
阅读(102)
评论(0)
推荐(0)
摘要:
本文主要记录一些工作中的零散总结,供自己翻阅。 alphaFM特点 alphaFM是一位腾讯同学开发的单机多线程的FM工具。GitHub地址:https://github.com/CastellanZhang/alphaFM,详细介绍可以去看下其介绍、原理和优化思路。本人在工作中也用到了这个工具,感 阅读全文
posted @ 2025-02-09 13:02
稳住·能赢
阅读(32)
评论(0)
推荐(0)
摘要:
创意优化 创意需要将向用户推送广告的关键原因明确表达出来 程序化创意 地域性创意 搜索重定向创意 个性化重定向创意 电机热力图 电机热力图是将某一个创意各位置被点击的密度用热力图方式呈现,帮助创意优化者直观的发现和解决其中的问题 创意的发展趋势 视频化 激励视频形式 交互化 实验框架 一个实用的实验 阅读全文
posted @ 2025-02-09 12:58
稳住·能赢
阅读(44)
评论(0)
推荐(0)
摘要:
广告交易平台ADX cookie映射 解决供给方和需求方身份对应问题 重点关注三个问题:由谁发起,在哪里发起,谁保存映射 询价优化 对每次展示中询价的DSP数进行精简,尽可能只向那些可能赢得拍卖的DSP询价 两种思路:工程规则思路和带约束的优化问题 需求方平台DSP 实时竞价环境下:提供定制化用户分 阅读全文
posted @ 2025-02-09 12:57
稳住·能赢
阅读(54)
评论(0)
推荐(0)
摘要:
点击率预测模型 点击率:把点击事件h看成一个二元取值的随机变量,取值为真(h=1)的概率就是点击率 点击事件分布:表示成以点击率μ为参数的二项分布 点击率基础模型:逻辑回归(LR),在(a,u,c)组合与点击率μ之间建立函数关系,表示成对μ(a,u,c)=p(h=1|a,u,c)的概率建模问题 LR 阅读全文
posted @ 2025-02-09 12:57
稳住·能赢
阅读(195)
评论(0)
推荐(0)
摘要:
竞价广告计算法 常用的定价策略 广义第二高价(GSP) 市场保留价(MRP) 价格挤压 最关键的两个计算问题 广告检索 广告排序 搜索广告系统 优化目标 关键技术 查询扩展 意义:需求方通过扩展关键词获得更多的流量,供给方借此来变现更多流量和提高竞价的激烈程度 扩展方法 第五章介绍了精确匹配、短语匹 阅读全文
posted @ 2025-02-09 12:57
稳住·能赢
阅读(223)
评论(0)
推荐(0)
摘要:
信息检索 倒排索引:从大量文档中查找包含某些词的文档集合 向量空间模型(Vector Space Model, VSM):最基础最重要的相似度度量方法之一 文档表示方法:用各个关键词在文档中的强度(如TF-IDF)组成的矢量来表示文档 词频(Term Frequency, TF):某文档中,该词出现 阅读全文
posted @ 2025-02-09 12:56
稳住·能赢
阅读(8)
评论(0)
推荐(0)
摘要:
个性化系统框架 计算广告是根据个体用户信息投送个性化内容的典型系统之一 个性化系统的构成部分 用于实时响应请求,完成决策的『在线投放引擎』 离线的『分布式计算』数据处理平台 用于在线实时反馈的『流计算平台』 连接和转运上面三部分数据流的『数据高速公路』 协作流程 『在线投放系统』的日志接入『数据高速 阅读全文
posted @ 2025-02-09 12:56
稳住·能赢
阅读(61)
评论(0)
推荐(0)
摘要:
1. 离线评估 (1)介绍 离线评估是最常用、最基本的。顾名思义就是:我们将模型部署于线上环境之前,在离线环境下进行的评估。由于不用部署到生产环境,“离线评估”没有线上部署的工程风险,也不会浪费宝贵的线上流量资源,而且具有测试时间短,可多组并行,以及能够利用丰富的线下计算资源等诸多优点。 (2)评估 阅读全文
posted @ 2025-02-09 12:50
稳住·能赢
阅读(202)
评论(0)
推荐(0)
摘要:
参考资料 《深度学习推荐系统实战》 -- 极客时间,王喆 阅读全文
posted @ 2025-02-09 12:50
稳住·能赢
阅读(24)
评论(0)
推荐(0)
摘要:
特征组合和特征交叉问题非常常见,特征的种类非常多,特征交叉的复杂程度也要大得多。解决这类问题的关键,就是模型对于特征组合和特征交叉的学习能力,因为它决定了模型对于未知特征组合样本的预测能力,而这对于复杂的推荐问题来说,是决定其推荐效果的关键点之一。 那特征交叉与深度学习模型的拟合能力有什么关系呢?以 阅读全文
posted @ 2025-02-09 12:50
稳住·能赢
阅读(522)
评论(0)
推荐(0)
摘要:
1. 深度学习模型拟合能力更强 特征交叉方式中,点积等方式过于简单,在样本数据比较复杂的情况下,容易欠拟合。而深度学习可以大大提高模型的拟合能力,比如在 NeuralCF(神经网络协同过滤)模型中,点积层被替换为多层神经网络,理论上多层神经网络具备拟合任意函数的能力,所以我们通过增加神经网络层的方式 阅读全文
posted @ 2025-02-09 12:49
稳住·能赢
阅读(80)
评论(0)
推荐(0)
摘要:
1. 协同过滤(CF) 1. 里程碑 2003年,Amazon发表论文《Amazon.com recommendations: item-to-item collaborative filtering》,不仅让Amazon的推荐系统广为人知,更让协同过滤成为今后很长时间的研究热点和业界主流的推荐模型 阅读全文
posted @ 2025-02-09 12:49
稳住·能赢
阅读(124)
评论(0)
推荐(0)
摘要:
基础架构、特征工程、线上服务融会贯通 一张脑图比较大,加载比较慢。 参考资料 《深度学习推荐系统实战》 -- 极客时间,王喆 阅读全文
posted @ 2025-02-09 12:48
稳住·能赢
阅读(10)
评论(0)
推荐(0)
摘要:
1. 高并发线上服务 1. 工业级推荐服务器功能 需要跟离线训练好的模型打交道,把离线模型进行上线,在线进行模型服务(Model Serving), 需要跟数据库打交道,把候选物品和离线处理好的特征载入到服务器 召回层、排序层、业务逻辑(结果多样性、流行度) AB 测试 2. 高并发推荐服务整体架构 阅读全文
posted @ 2025-02-09 12:48
稳住·能赢
阅读(91)
评论(0)
推荐(0)
摘要:
1. Embedding是什么 Embedding 就是用一个数值向量“表示”一个对象(Object)的方法 解读1:左边例子,从 king 到 queen 的向量和从 man 到 woman 的向量,无论从方向还是尺度来说它们都非常接近。 解读2:右边例子也很典型,从 walking 到 walk 阅读全文
posted @ 2025-02-09 12:48
稳住·能赢
阅读(351)
评论(0)
推荐(0)
摘要:
1. 特征与工程 (1)特征就是对具体行为的抽象,但是抽象过程会造成信息的损失 ① 因为具体的推荐行为和场景中包含大量原始的场景、图片和状态信息,保存所有信息的存储空间过大,我们根本无法实现。 ② 因为具体的推荐场景中包含大量冗余的、无用的信息,把它们都考虑进来甚至会损害模型的泛化能力。 (2)特征 阅读全文
posted @ 2025-02-09 12:47
稳住·能赢
阅读(73)
评论(0)
推荐(0)
摘要:
1. 深度学习推荐系统基础概念 2. 从0到1搭建深度学习推荐系统 -- 开源项目Sparrow RecSys实操(以Mac为例) (1)安装Scala 2.11(务必是2.11大版本,否则与开源项目设置的版本号不匹配,会有执行失败的问题) brew update brew install scal 阅读全文
posted @ 2025-02-09 12:47
稳住·能赢
阅读(42)
评论(0)
推荐(0)
摘要:
1. Facebook的深度学习推荐系统 2014年,Facebook发表了广告推荐系统论文GBDT+LR。严格意义上讲,这并不属于深度学习的范畴,但在当时,这种方式进行特征的自动组合和筛选,开启了特征工程模型化、自动化的新阶段。并且其在2014年就采用的在线学习、在线数据整合、负样本降采样等技术至 阅读全文
posted @ 2025-02-09 12:46
稳住·能赢
阅读(101)
评论(0)
推荐(0)
摘要:
物品冷启动评价指标 物品冷启动目标 精准推荐:新物品的推荐效果往往比较差 激励发布:新物品得到较多流量后,更容易激励作者。 挖掘高潜:从新物品中挖掘高质量物品。 评价指标 作者指标:发布渗透量、人均发布量等 用户指标:新笔记的交互率、大盘指标(比如日活、月活、时长) 内容指标:新物品中的高热笔记占比 阅读全文
posted @ 2025-02-09 12:43
稳住·能赢
阅读(122)
评论(0)
推荐(0)
摘要:
重排是精排的后处理操作。 物品多样性 相似度度量 基于物品属性标签 基于物品向量表征 (1)双塔模型的物品塔,但是因为头部效应问题导致学不好物品向量表征 (2)基于图文内容学习 CLIP - 基于图文内容的物品向量表征 原理 对于图片-文本二元组数据进行对比学习,预测图文是否匹配。优点是:无需人工标 阅读全文
posted @ 2025-02-09 12:35
稳住·能赢
阅读(53)
评论(0)
推荐(0)
摘要:
简单平均 lastN特征 把用户最近n次交互的物品Embedding向量取平均,作为一个用户特征使用。 适用于召回双塔模型、粗排三塔模型、精排模型。 DIN 原理 本质:用加权平均代替平均,也就是注意力机制。 注意力机制不适用于召回双塔和粗排三塔。因为需要用到候选物品,而用户塔看不到候选物品。 缺点 阅读全文
posted @ 2025-02-09 12:29
稳住·能赢
阅读(59)
评论(0)
推荐(0)
摘要:
FM 线性模型 设有\(d\)个特征,记为:\(\pmb{X} = [x_1, x_2, ... , x_d]\),则线性模型的表达式为: \[p = b + \sum_{i=1}^d w_i · x_i \]其中,\(b\)为偏置,总共\(d+1\)个模型参数。\(p\)是预测结果,也就是特征和权 阅读全文
posted @ 2025-02-09 12:29
稳住·能赢
阅读(100)
评论(0)
推荐(0)
摘要:
精排 - 多目标模型 简单的多目标模型 模型结构 损失函数和训练 问题 数据集通常是类别及不平衡的,比如总共1000次曝光,其中只有100次点击,10次收藏,收藏次数对于曝光来说相差极大。 解决方案:通常使用负样本降采样的方法。 预估校准:负样本降采样之后,就改变了各个目标的实际分布,所以模型的预估 阅读全文
posted @ 2025-02-09 12:29
稳住·能赢
阅读(56)
评论(0)
推荐(0)
摘要:
ItemCF召回 ItemCF原理 \[\sum_{j} like(user, \, item_j) · sim(item_j, \, item_{候选物品}) \tag{1} \]用图表示为: 物品相似度计算方法 \[sim(i_1, i_2) = \frac{|V|}{\sqrt{|W_1| · 阅读全文
posted @ 2025-02-09 00:50
稳住·能赢
阅读(173)
评论(0)
推荐(0)

浙公网安备 33010602011771号