摘要: 聚类 今天说聚类,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。 分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是 阅读全文
posted @ 2020-05-06 12:35 少年阿成 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 【关键词】支持向量,最大几何间隔,拉格朗日乘子法 一、支持向量机的原理 Support Vector Machine。支持向量机,其含义是通过支持向量运算的分类器。其中“机”的意思是机器,可以理解为分类器。 那么什么是支持向量呢?在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持 阅读全文
posted @ 2020-05-06 12:08 少年阿成 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 定义 贝叶斯方法 贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样 阅读全文
posted @ 2020-05-06 11:50 少年阿成 阅读(2993) 评论(0) 推荐(0) 编辑
摘要: LGBM Light GBM is a gradient boosting framework that uses tree based learning algorithm。 传统的GBDT算法存在的问题: 1、如何减少训练数据 常用的减少训练数据量的方式是down sample。例如在[5]中, 阅读全文
posted @ 2020-05-06 11:44 少年阿成 阅读(3822) 评论(0) 推荐(0) 编辑
摘要: 所谓集成学习,是指构建多个分类器(弱分类器)对数据集进行预测,然后用某种策略将多个分类器预测的结果集成起来,作为最终预测结果。通俗比喻就是“三个臭皮匠赛过诸葛亮”,或一个公司董事会上的各董事投票决策,它要求每个弱分类器具备一定的“准确性”,分类器之间具备“差异性”。 Bagging和Boosting 阅读全文
posted @ 2020-05-05 23:13 少年阿成 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 随机森林(RandomForest) 简介: 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 “Random Forests” 是他们的商标。 这个术语是1995 阅读全文
posted @ 2020-05-05 19:26 少年阿成 阅读(1296) 评论(1) 推荐(0) 编辑
摘要: 决策树的理解 决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。 决策树是一种十分常用的分类方法,需要监管学习(有教师的Supervised Lea 阅读全文
posted @ 2020-05-05 18:53 少年阿成 阅读(3494) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。 逻辑斯蒂分布 logistic回归其实不是线性回归求预测值的问题,而是二分类问题。首先我们的线性回归模型输出的预测值,是一个实际的数字,那么我们想将他部署到分类问题,就需要让输出值转换到0/ 阅读全文
posted @ 2020-05-05 17:34 少年阿成 阅读(1111) 评论(0) 推荐(0) 编辑
摘要: 知识点汇总: 1.集中趋势(Central Tendency) 2.变异性(Variability) 3.归一化(Standardizing) 4.正态分布(Normal Distributions) 5.抽样分布(Sampling Distributions) 6.估计(Estimation) 7 阅读全文
posted @ 2020-05-05 17:11 少年阿成 阅读(695) 评论(0) 推荐(0) 编辑
摘要: 一、基本指标 启动用户:启动过应用程序的用户(以独立设备为标准进行去重) 新用户:所选时段的启动用户中,历史上第一次启动应用程序的用户 老用户:当日启动用户中,以前也启动过应用程序的用户 每次使用时长:平均每一次使用应用程序(session)的时间 每人使用时长:平均每个用户使用应用程序的时间 日活 阅读全文
posted @ 2020-05-03 00:33 少年阿成 阅读(1246) 评论(0) 推荐(0) 编辑