随笔分类 -  Mechine Learning系列

机器学习算法
摘要:1. 集成学习(Ensemble learning) 基本思想:让机器学习效果更好,如果单个分类器表现的很好,那么为什么不适用多个分类器呢? 通过集成学习可以提高整体的泛化能力,但是这种提高是有条件的: (1)分类器之间应该有差异性; (2)每个分类器的精度必须大于0.5; 如果使用的分类器没有差异 阅读全文
posted @ 2018-11-09 01:44 牧梦者 阅读(1690) 评论(0) 推荐(0)
摘要:1.线性回归 简述: 在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合(自变量都是一次方)。只有一个自变量的情况称为简单回归,大于一个自变量情况 阅读全文
posted @ 2018-10-08 22:32 牧梦者 阅读(2127) 评论(0) 推荐(0)
摘要:1.Kmeans聚类算法原理 1.1 概述 K-means算法时集简单和经典于一身的基于距离的聚类算法。采用距离作为相似度的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 1.2 算法图示 假设我们的n个样本点分布在 阅读全文
posted @ 2018-08-27 19:50 牧梦者 阅读(1774) 评论(3) 推荐(0)
摘要:常见分类模型与算法 距离判别法,即最近邻算法KNN; 贝叶斯分类器; 线性判别法,即逻辑回归算法; 决策树; 支持向量机; 神经网络; 1. KNN分类算法原理及应用 1.1 KNN概述 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 KNN算法的指导思想是 阅读全文
posted @ 2018-08-24 17:42 牧梦者 阅读(24606) 评论(1) 推荐(5)
摘要:本章导读 机器学习(machine learning, ML)是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域的交叉学科。ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识、新技能,并重组已学习的知识结构使之不断改善自身。 MLlib是Spark提供的可扩展的机器学习库。ML 阅读全文
posted @ 2018-08-15 17:39 牧梦者 阅读(28506) 评论(1) 推荐(3)