摘要: 在计算广告中,CTR是非常重要的一环。对于特征组合来说,业界通用的做法主要有两大类:FM系列和Tree系列。这里我们来介绍一下FM系列。 在传统的线性模型中,每个特征都是独立的,如果需要考虑特征与特征之间的相互作用,可能需要人工对特征进行交叉组合。非线性SVM可以对特征进行核变换,但是在特征高度稀疏 阅读全文
posted @ 2019-06-20 20:08 Jamest 阅读(3024) 评论(0) 推荐(0)
摘要: 如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动的问题。 冷启动问题(cold start)主要分3类。 用户冷启动 物品冷启动 系统冷启动 1)用户冷启动可以利用用户注册信息,也可以选择合适的物品启动用户的兴趣(基于NLP方向的推荐) 2)物 阅读全文
posted @ 2019-06-02 14:47 Jamest 阅读(624) 评论(0) 推荐(1)
摘要: 推荐系统是一种信息过滤系统,用于预测用户对物品的评分或偏好。解决的是信息过载和长尾问题(长尾理论)。它的本质是通过一定的方式将用户和物品联系起来。 推荐系统在为用户推荐物品时通常有两种方式: 1.评分预测 2.TopN推荐 主流的推荐系统算法可以分为协同过滤推荐(Collaborative Filt 阅读全文
posted @ 2019-05-30 22:18 Jamest 阅读(2767) 评论(0) 推荐(1)
摘要: 概率图模型(PGM)是一种对现实情况进行描述的模型。其核心是条件概率,本质上是利用先验知识,确立一个随机变量之间的关联约束关系,最终达成方便求取条件概率的目的。 概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边,节点对应于随机变量,边对应于随机变量的依赖或相关关系。 概率图模型分为贝叶斯网 阅读全文
posted @ 2019-05-28 21:10 Jamest 阅读(1281) 评论(0) 推荐(0)
摘要: 集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 目前主流方法有三种: 1.Boosting方法:包括Adaboost,GBDT, XGBoost等 2.Bagging方法:典型的是Random Forest 3.Stacking算法 RF Random Fores 阅读全文
posted @ 2019-05-27 21:05 Jamest 阅读(984) 评论(0) 推荐(0)
摘要: 本文重点阐述了xgboost和lightgbm的主要参数和调参技巧,其理论部分可见 "集成学习" ,以下内容主要来自 "xgboost" 和 "LightGBM" 的官方文档。 xgboost Xgboost参数主要分为三大类: General Parameters(通用参数):设置整体功能 Boo 阅读全文
posted @ 2019-05-22 19:35 Jamest 阅读(5254) 评论(0) 推荐(0)
摘要: 在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为 “ 维度灾难 ” 。另外在高维特征中容易出现特征之间的线性相关,这也就意味着有的特征是冗余存在的。基于这些问题,降维思想就出现了。 降维就是指采用某种映 阅读全文
posted @ 2019-05-22 19:34 Jamest 阅读(5550) 评论(0) 推荐(0)
摘要: 聚类是机器学习中一种重要的 无监督算法 ,它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。在数据科学中聚类会从数据中发掘出很多分析和理解的视角,让我们更深入的把握数据资源的价值、并据此指导生产生活。 基于不同的学习策略,聚类算法可分 阅读全文
posted @ 2019-05-22 19:33 Jamest 阅读(684) 评论(0) 推荐(0)
摘要: EM算法,即最大期望算法(Expectation maximization algorithm),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型 依赖于无法观测的隐性变量 。 最大期望算法经过两个步骤交替进行计算, 第一步是 计算期望(E) ,利用对隐藏变量的现有估计值,计算 阅读全文
posted @ 2019-05-22 17:11 Jamest 阅读(348) 评论(0) 推荐(0)
摘要: 记录一些常见的机器学习基础概念。 常见的距离算法 1. 欧几里得距离(Euclidean Distance) $$ \sqrt{\sum_{i=1}^N{(x_i y_i)}^2} $$ 标准欧氏距离的思路:现将各个维度的数据进行标准化:标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量 阅读全文
posted @ 2019-05-22 17:10 Jamest 阅读(818) 评论(0) 推荐(0)