随笔分类 - 推荐算法
摘要:LSH是一种在海量数据近似查找最近邻方法,其基本思想是,在原始空间中相邻的集合,经过相同的映射后,在新的空间中仍然相邻(映射到一个桶里)的概率很大,而不相邻的数据点映射到一个桶里的概率很小。在推理的时候,我们把target映射到桶内,target的最近邻可以直接在这个桶内找。我们可以使用哈希函数实现
阅读全文
摘要:AUC是衡量二分类模型优劣的一种评价指标,有两种等价定义: 面积定义:ROC曲线下围成的面积 物理定义:模型预测的正例排在负例前面的概率 面积定义 AUC通常指ROC曲线下的面积(Area Under the ROC Curve)。其中,ROC(Receiver Operating Characte
阅读全文
摘要:DeepFM主要解决了Wide & Deep的以下几个痛点: wide部分特征自动交叉。Wide & Deep中的wide部分需要手工做特征工程,DeepFM向wide部分引入FM模块,使wide部分能够自动组合二阶交叉特征,可以实现端到端的训练。 算法 如图,整个网络可以看作三个部分:一阶部分+二
阅读全文
摘要:Wide & Deep主要解决了FM的以下几个痛点: 强化记忆能力。FM这类embedding类模型拥有强大的泛化能力,在embedding的过程中传入了大量的全局信息,对于一些很少出现甚至没有出现过的特征组合,也能计算出合理的特征组合权重。但是,当共现矩阵过于稀疏时,模型会过分泛化,推荐出很多相关
阅读全文
摘要:特征域感知因子分解机(Field-aware Factorization Machines,FFM)主要解决了FM的以下几个痛点: 更准确的特征embedding表达。FM中,每个特征只由一个embedding向量表达,这样虽然能增强模型的泛化性能,但是也大大削弱了模型的记忆能力。FFM在POLY_
阅读全文
摘要:因子分解机(Factorization Machines,FM)主要解决了LR的以下几个痛点: 实现自动特征交叉。LR只能只能手工设计特征之间的交叉,依赖大量人力与业务知识,并且无法挖掘业务构建特征的盲点; 在稀疏特征上的效果更好。对LR进行暴力二阶特征交叉也能实现特征自动交叉的效果(如POLY_v
阅读全文
摘要:逻辑回归(Logistic Regression,LR)在推荐系统发展历史中占非常重要的地位。其优势主要体现在三个方面: 数学含义的支撑:LR是一个广义线性模型(可以简单理解为加了激活函数的线性模型),其假设为因变量服从伯努利分布,而CTR事件可以类比为掷偏心硬币的问题,所以使用LR作为CTR预估模
阅读全文
摘要:ml-100k 下载链接 MovieLens 100K movie ratings. Stable benchmark dataset. 100,000 ratings from 1000 users on 1700 movies. Released 4/1998. 包含文件 u.data:943个
阅读全文

浙公网安备 33010602011771号