随笔分类 - 项目-推荐系统-实践

推荐：负采样

摘要：https://zhuanlan.zhihu.com/p/387378387 负采样有很多种方法。线上用的是随机降采样 10% 的负例。分类规则式随机（baseline）优点：效率，避免引入新的偏差。广泛使用。基于流行度越热门的物品，越容易做负例。优点：提高采样质量，用户不喜欢热门商品阅读全文

posted @ 2021-07-08 18:54 nuo-o 阅读(836) 评论(0) 推荐(0)

推荐：多目标 mmoe - 实现

摘要：结构从 expert 角度 1. experts 其实是一个个小兵，将不同的输入数据映射到不同的空间，只 fit 这一部分的 "local" 数据。 reference： https://www.cs.toronto.edu/~hinton/csc321/notes/lec15.pdf 所以我理解阅读全文

posted @ 2021-07-07 17:10 nuo-o 阅读(431) 评论(0) 推荐(0)

正负例优化

摘要：baseline hourly train；观察到 show 没有观察到 click，则按照负样本计算；观察到 show & click，则按照正样本计算；正样本回溯4个小时的负样本进行 join；已经按照负样本进行训练的正样本，按照2个正样本进行补充。优点：实时性高。但不准确。缺点：不阅读全文

posted @ 2021-06-24 14:22 nuo-o 阅读(349) 评论(0) 推荐(0)

multi-domain 优化

摘要：《One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction 》 2018年阿里巴巴应用在广告系统上的推荐架构。同时预估19个domain的ctr 任务。论文大概内容翻译 Ab 阅读全文

posted @ 2021-06-18 11:24 nuo-o 阅读(754) 评论(0) 推荐(0)

线上线下效果不一致

摘要：1. 发生在 KAGGLE 比赛中的“地震”现象主要原因：训练集和测试集数据分布不一致检测：在训练集合和测试集合上训练一个二分类，并在测试集合上进行 auc 检测，如果 auc = 0.5，说明训练集合和测试集合没有显著差异。当 > 0.7 时，说明有较大差异。应用1：二分类预测测试集上所有样阅读全文

posted @ 2021-04-25 18:17 nuo-o 阅读(588) 评论(0) 推荐(0)

三言两语大话 - DPP

摘要：DPP 为什么当用户在我们系统中点击行为比较少的时候，我们会补充一些热门特征来丰富用户画像。所谓的热门特征，是累加了所有用户点击过的新闻特征，然后取topk得到的。会发现，尤其对于一些细粒度的特征，头部会集中在同一语义下。为了平衡热门特征的语义多样性和热门程度，我采用了DPP 的方法。举个例阅读全文

posted @ 2021-04-25 08:09 nuo-o 阅读(253) 评论(0) 推荐(0)

多目标优化

摘要：定义问题 1. 数据偏差在有点击的数据上训练 stay 模型，在全局估计。（然而我们系统里面，是用了非点击的数据的 = = 跟论文里面不一样啊！！！我要不要剔除这部分数据呢） 2. 数据稀疏正例样本少。常见多目标优化形式 1. 针对每一个目标单独建模，线上加权。难以维护。 2. 针对样本进行加阅读全文

posted @ 2021-03-19 19:33 nuo-o 阅读(881) 评论(0) 推荐(0)