推荐算法 - 随笔分类 - tmpUser

【最近邻算法】局部敏感哈希（Locality-Sensitive Hashing，LSH)

摘要：LSH是一种在海量数据近似查找最近邻方法，其基本思想是，在原始空间中相邻的集合，经过相同的映射后，在新的空间中仍然相邻（映射到一个桶里）的概率很大，而不相邻的数据点映射到一个桶里的概率很小。在推理的时候，我们把target映射到桶内，target的最近邻可以直接在这个桶内找。我们可以使用哈希函数实现阅读全文

posted @ 2021-09-08 16:02 tmpUser 阅读(1819) 评论(0) 推荐(0)

【推荐算法】AUC的计算方法

摘要：AUC是衡量二分类模型优劣的一种评价指标，有两种等价定义：面积定义：ROC曲线下围成的面积物理定义：模型预测的正例排在负例前面的概率面积定义 AUC通常指ROC曲线下的面积（Area Under the ROC Curve）。其中，ROC（Receiver Operating Characte 阅读全文

posted @ 2021-08-03 00:19 tmpUser 阅读(2782) 评论(0) 推荐(0)

【推荐算法】DeepFM

摘要：DeepFM主要解决了Wide & Deep的以下几个痛点： wide部分特征自动交叉。Wide & Deep中的wide部分需要手工做特征工程，DeepFM向wide部分引入FM模块，使wide部分能够自动组合二阶交叉特征，可以实现端到端的训练。算法如图，整个网络可以看作三个部分：一阶部分+二阅读全文

posted @ 2021-06-30 17:43 tmpUser 阅读(191) 评论(0) 推荐(0)

【推荐算法】Wide & Deep

摘要：Wide & Deep主要解决了FM的以下几个痛点：强化记忆能力。FM这类embedding类模型拥有强大的泛化能力，在embedding的过程中传入了大量的全局信息，对于一些很少出现甚至没有出现过的特征组合，也能计算出合理的特征组合权重。但是，当共现矩阵过于稀疏时，模型会过分泛化，推荐出很多相关阅读全文

posted @ 2021-06-30 16:32 tmpUser 阅读(293) 评论(0) 推荐(0)

摘要：特征域感知因子分解机（Field-aware Factorization Machines，FFM）主要解决了FM的以下几个痛点：更准确的特征embedding表达。FM中，每个特征只由一个embedding向量表达，这样虽然能增强模型的泛化性能，但是也大大削弱了模型的记忆能力。FFM在POLY_ 阅读全文

posted @ 2021-06-30 14:51 tmpUser 阅读(590) 评论(0) 推荐(0)

【推荐算法】因子分解机（Factorization Machines，FM）

摘要：因子分解机（Factorization Machines，FM）主要解决了LR的以下几个痛点：实现自动特征交叉。LR只能只能手工设计特征之间的交叉，依赖大量人力与业务知识，并且无法挖掘业务构建特征的盲点；在稀疏特征上的效果更好。对LR进行暴力二阶特征交叉也能实现特征自动交叉的效果（如POLY_v 阅读全文

posted @ 2021-06-30 14:13 tmpUser 阅读(441) 评论(1) 推荐(1)

【推荐算法】逻辑回归（Logistic Regression，LR）

摘要：逻辑回归（Logistic Regression，LR）在推荐系统发展历史中占非常重要的地位。其优势主要体现在三个方面：数学含义的支撑：LR是一个广义线性模型（可以简单理解为加了激活函数的线性模型），其假设为因变量服从伯努利分布，而CTR事件可以类比为掷偏心硬币的问题，所以使用LR作为CTR预估模阅读全文

posted @ 2021-06-30 12:08 tmpUser 阅读(1663) 评论(3) 推荐(0)

【推荐算法】数据集处理

摘要：ml-100k 下载链接 MovieLens 100K movie ratings. Stable benchmark dataset. 100,000 ratings from 1000 users on 1700 movies. Released 4/1998. 包含文件 u.data：943个阅读全文

posted @ 2021-06-03 23:48 tmpUser 阅读(834) 评论(3) 推荐(0)

tmpUser

随笔分类 - 推荐算法

公告