随笔分类 -  机器学习

摘要:聚类 今天说聚类,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。 分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是 阅读全文
posted @ 2020-05-06 12:35 少年阿成 阅读(219) 评论(0) 推荐(0)
摘要:【关键词】支持向量,最大几何间隔,拉格朗日乘子法 一、支持向量机的原理 Support Vector Machine。支持向量机,其含义是通过支持向量运算的分类器。其中“机”的意思是机器,可以理解为分类器。 那么什么是支持向量呢?在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持 阅读全文
posted @ 2020-05-06 12:08 少年阿成 阅读(684) 评论(0) 推荐(0)
摘要:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 定义 贝叶斯方法 贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样 阅读全文
posted @ 2020-05-06 11:50 少年阿成 阅读(3624) 评论(0) 推荐(0)
摘要:LGBM Light GBM is a gradient boosting framework that uses tree based learning algorithm。 传统的GBDT算法存在的问题: 1、如何减少训练数据 常用的减少训练数据量的方式是down sample。例如在[5]中, 阅读全文
posted @ 2020-05-06 11:44 少年阿成 阅读(4372) 评论(0) 推荐(1)
摘要:所谓集成学习,是指构建多个分类器(弱分类器)对数据集进行预测,然后用某种策略将多个分类器预测的结果集成起来,作为最终预测结果。通俗比喻就是“三个臭皮匠赛过诸葛亮”,或一个公司董事会上的各董事投票决策,它要求每个弱分类器具备一定的“准确性”,分类器之间具备“差异性”。 Bagging和Boosting 阅读全文
posted @ 2020-05-05 23:13 少年阿成 阅读(580) 评论(0) 推荐(0)
摘要:随机森林(RandomForest) 简介: 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 “Random Forests” 是他们的商标。 这个术语是1995 阅读全文
posted @ 2020-05-05 19:26 少年阿成 阅读(1732) 评论(1) 推荐(0)
摘要:决策树的理解 决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。 决策树是一种十分常用的分类方法,需要监管学习(有教师的Supervised Lea 阅读全文
posted @ 2020-05-05 18:53 少年阿成 阅读(4264) 评论(0) 推荐(0)
摘要:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。 逻辑斯蒂分布 logistic回归其实不是线性回归求预测值的问题,而是二分类问题。首先我们的线性回归模型输出的预测值,是一个实际的数字,那么我们想将他部署到分类问题,就需要让输出值转换到0/ 阅读全文
posted @ 2020-05-05 17:34 少年阿成 阅读(1393) 评论(0) 推荐(0)
摘要:KNN原理 KNN是一种即可用于分类又可用于回归的机器学习算法。对于给定测试样本,基于距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个“邻居”的信息来进行预测。常用于文本分类、模式识别、多分类等领域。 在分类任务中可使用投票法,选择这K个样本中出现最多的类别标记作为预测结果;在回归任务中 阅读全文
posted @ 2020-04-29 11:31 少年阿成 阅读(949) 评论(0) 推荐(0)
摘要:偏差和方差 在学习Ridge和Lasso之前,我们先看一下偏差和方差的概念。 机器学习算法针对特定数据所训练出来的模型并非是十全十美的,再加上数据本身的复杂性,误差不可避免。说到误差,就必须考虑其来源:模型误差 = 偏差(Bias)+ 方差(Variance)+ 数据本身的误差。其中数据本身的误差, 阅读全文
posted @ 2020-04-28 23:16 少年阿成 阅读(8266) 评论(0) 推荐(0)
摘要:线性回归的基本含义 在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反 阅读全文
posted @ 2020-04-28 11:30 少年阿成 阅读(3562) 评论(0) 推荐(0)
摘要:机器学习不是科幻电影。 机器学习目的是解放生产力。 机器学习原理 机器学习: 机器自主获取事物的规律。 要让机器可以 “学习”,必须将生活中的数据(包括但不限于图像、文字、语音)数值化,将不同事物的变化和关联转化为运算。 机器学习可以成立的原因是:概念和数值、关系和运算可以相互映射。 机器学习的种类 阅读全文
posted @ 2020-04-27 12:43 少年阿成 阅读(396) 评论(0) 推荐(0)