机器学习 - 随笔分类 - 少年阿成

机器学习 | K-Means聚类算法原理

摘要：聚类今天说聚类，但是必须要先理解聚类和分类的区别，很多业务人员在日常分析时候不是很严谨，混为一谈，其实二者有本质的区别。分类其实是从特定的数据中挖掘模式，作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器，一开始的时候可能什么都不过滤，在日常使用过程中，我人工对于每一封邮件点选“垃圾”或“不是阅读全文

posted @ 2020-05-06 12:35 少年阿成阅读(224) 评论(0) 推荐(0)

机器学习 | 支持向量机（SVM）的原理

摘要：【关键词】支持向量，最大几何间隔，拉格朗日乘子法一、支持向量机的原理 Support Vector Machine。支持向量机，其含义是通过支持向量运算的分类器。其中“机”的意思是机器，可以理解为分类器。那么什么是支持向量呢？在求解的过程中，会发现只根据部分数据就可以确定分类器，这些数据称为支持阅读全文

posted @ 2020-05-06 12:08 少年阿成阅读(696) 评论(0) 推荐(0)

朴素贝叶斯（Naive Bayesian）的理解及优缺点

摘要：朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法定义贝叶斯方法贝叶斯方法是以贝叶斯原理为基础，使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础，贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率，即避免了只使用先验概率的主观偏见，也避免了单独使用样阅读全文

posted @ 2020-05-06 11:50 少年阿成阅读(3640) 评论(0) 推荐(0)

LGBM的理解及优缺点

摘要：LGBM Light GBM is a gradient boosting framework that uses tree based learning algorithm。传统的GBDT算法存在的问题： 1、如何减少训练数据常用的减少训练数据量的方式是down sample。例如在[5]中，阅读全文

posted @ 2020-05-06 11:44 少年阿成阅读(4391) 评论(0) 推荐(1)

Boosting 集成算法中Adaboost、GBDT与XGBoost的区别

摘要：所谓集成学习，是指构建多个分类器（弱分类器）对数据集进行预测，然后用某种策略将多个分类器预测的结果集成起来，作为最终预测结果。通俗比喻就是“三个臭皮匠赛过诸葛亮”，或一个公司董事会上的各董事投票决策，它要求每个弱分类器具备一定的“准确性”，分类器之间具备“差异性”。 Bagging和Boosting 阅读全文

posted @ 2020-05-05 23:13 少年阿成阅读(604) 评论(0) 推荐(0)

随机森林（RandomForest）和极限森林（ExtraForest）的理解

摘要：随机森林（RandomForest）简介：在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 “Random Forests” 是他们的商标。这个术语是1995 阅读全文

posted @ 2020-05-05 19:26 少年阿成阅读(1755) 评论(1) 推荐(0)

决策树（Decision Tree）的理解及优缺点

摘要：决策树的理解决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。决策树是一种十分常用的分类方法，需要监管学习（有教师的Supervised Lea 阅读全文

posted @ 2020-05-05 18:53 少年阿成阅读(4298) 评论(0) 推荐(0)

逻辑斯蒂回归（Logistic Regression）理解及相关问题

摘要：逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。逻辑斯蒂分布 logistic回归其实不是线性回归求预测值的问题，而是二分类问题。首先我们的线性回归模型输出的预测值，是一个实际的数字，那么我们想将他部署到分类问题，就需要让输出值转换到0/ 阅读全文

posted @ 2020-05-05 17:34 少年阿成阅读(1426) 评论(0) 推荐(0)

KNN算法（K近邻，k-NearestNeighbor）的理解及原理

摘要：KNN原理 KNN是一种即可用于分类又可用于回归的机器学习算法。对于给定测试样本，基于距离度量找出训练集中与其最靠近的K个训练样本，然后基于这K个“邻居”的信息来进行预测。常用于文本分类、模式识别、多分类等领域。在分类任务中可使用投票法，选择这K个样本中出现最多的类别标记作为预测结果；在回归任务中阅读全文

posted @ 2020-04-29 11:31 少年阿成阅读(978) 评论(0) 推荐(0)

岭回归（Ridge）和套索回归（Lasso）的原理及理解

摘要：偏差和方差在学习Ridge和Lasso之前，我们先看一下偏差和方差的概念。机器学习算法针对特定数据所训练出来的模型并非是十全十美的，再加上数据本身的复杂性，误差不可避免。说到误差，就必须考虑其来源：模型误差 = 偏差（Bias）+ 方差（Variance）+ 数据本身的误差。其中数据本身的误差，阅读全文

posted @ 2020-04-28 23:16 少年阿成阅读(8335) 评论(0) 推荐(0)

线性回归（Linear Regression）的理解及原理

摘要：线性回归的基本含义在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。（这反阅读全文

posted @ 2020-04-28 11:30 少年阿成阅读(3592) 评论(0) 推荐(0)

机器学习简单介绍

摘要：机器学习不是科幻电影。机器学习目的是解放生产力。机器学习原理机器学习：机器自主获取事物的规律。要让机器可以 “学习”，必须将生活中的数据（包括但不限于图像、文字、语音）数值化，将不同事物的变化和关联转化为运算。机器学习可以成立的原因是：概念和数值、关系和运算可以相互映射。机器学习的种类阅读全文

posted @ 2020-04-27 12:43 少年阿成阅读(402) 评论(0) 推荐(0)

少年阿成

随笔分类 - 机器学习

公告