随笔分类 - 项目-推荐系统-实践
摘要:https://zhuanlan.zhihu.com/p/387378387 负采样有很多种方法。线上用的是随机降采样 10% 的负例。 分类 规则式 随机(baseline) 优点:效率,避免引入新的偏差。广泛使用。 基于流行度 越热门的物品,越容易做负例。 优点:提高采样质量,用户不喜欢热门商品
阅读全文
摘要:结构 从 expert 角度 1. experts 其实是一个个小兵,将不同的输入数据映射到不同的空间,只 fit 这一部分的 "local" 数据。 reference: https://www.cs.toronto.edu/~hinton/csc321/notes/lec15.pdf 所以我理解
阅读全文
摘要:baseline hourly train; 观察到 show 没有观察到 click,则按照负样本计算; 观察到 show & click,则按照正样本计算; 正样本回溯4个小时的负样本进行 join; 已经按照负样本进行训练的正样本,按照2个正样本进行补充。 优点:实时性高。但不准确。 缺点:不
阅读全文
摘要:《One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction 》 2018年阿里巴巴应用在广告系统上的推荐架构。同时预估19个domain的ctr 任务。 论文大概内容翻译 Ab
阅读全文
摘要:1. 发生在 KAGGLE 比赛中的“地震”现象 主要原因:训练集和测试集数据分布不一致 检测:在训练集合和测试集合上训练一个二分类,并在测试集合上进行 auc 检测,如果 auc = 0.5,说明训练集合和测试集合没有显著差异。当 > 0.7 时,说明有较大差异。 应用1:二分类预测测试集上所有样
阅读全文
摘要:DPP 为什么 当用户在我们系统中点击行为比较少的时候,我们会补充一些热门特征来丰富用户画像。 所谓的热门特征,是累加了所有用户点击过的新闻特征,然后取topk得到的。 会发现,尤其对于一些细粒度的特征,头部会集中在同一语义下。为了平衡热门特征的语义多样性和热门程度,我采用了DPP 的方法。 举个例
阅读全文
摘要:定义问题 1. 数据偏差 在有点击的数据上训练 stay 模型,在全局估计。(然而我们系统里面,是用了非点击的数据的 = = 跟论文里面不一样啊!!!我要不要剔除这部分数据呢) 2. 数据稀疏 正例样本少。 常见多目标优化形式 1. 针对每一个目标单独建模,线上加权。难以维护。 2. 针对样本进行加
阅读全文

浙公网安备 33010602011771号