摘要:前言 对于如何发现一个数据集中的频繁项集,前文讲解的经典 Apriori 算法能够做到。 然而,对于每个潜在的频繁项,它都要检索一遍数据集,这是比较低效的。在实际的大数据应用中,这么做就更不好了。 本文将介绍一种专门检索频繁项集的新算法 - FP-growth 算法。 它只会扫描数据集两次,能循序挖
阅读全文
摘要:前言 想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事。 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了。 本文将讲解关联分析领域中最为经典的Apriori算法,并给出具体的代码实现。 关联分析领域的一些概念 1. 频繁项集: 数据
阅读全文
摘要:前言 在前面的文章中,涉及到的机器学习算法均为监督学习算法。 所谓监督学习,就是有训练过程的学习。再确切点,就是有 "分类标签集" 的学习。 现在开始,将进入到非监督学习领域。从经典的聚类问题展开讨论。所谓聚类,就是事先并不知道具体分类方案的分类 (允许知道分类个数)。 本文将介绍一个最为经典的聚类
阅读全文
摘要:前言 前文讨论的回归算法都是全局且针对线性问题的回归,即使是其中的局部加权线性回归法,也有其弊端(具体请参考前文) 采用全局模型会导致模型非常的臃肿,因为需要计算所有的样本点,而且现实生活中很多样本都有大量的特征信息。 另一方面,实际生活中更多的问题都是非线性问题。 针对这些问题,有了树回归系列算法
阅读全文
摘要:前言 本文将系统的介绍机器学习中监督学习的回归部分,系统的讲解如何利用回归理论知识来预测出一个分类的连续值。 显然,与监督学习中的分类部分相比,它有很鲜明的特点:输出为连续值,而不仅仅是标称类型的分类结果。 基本线性回归解决方案 - 最小二乘法 “给出一堆散点,求出其回归方程。" -> 对于这个问题
阅读全文
摘要:前言 在前面的文章中,讨论了一些分类算法。然后,有一点一直忽视了,就是非均衡的分类问题。 分均衡分类有两种情形 情形一:正例和反例数量相差非常大。 比如,分析信用卡信息集里面的正常样本和诈骗样本。正常样本固然比诈骗样本要多的多了。 情形二:分类正确/错误的代价不同。 比如,分析病人的体检数据,我们肯
阅读全文
摘要:前言 有人认为 AdaBoost 是最好的监督学习的方式。 某种程度上因为它是元算法,也就是说它会是几种分类器的组合。这就好比对于一个问题能够咨询多个 "专家" 的意见了。 组合的方式有多种,可能是不同分类算法的分类器,可能是同一算法在不同设置下的集成,还可以是数据集在不同部分分配给不同分类器之后的
阅读全文
摘要:前言 支持向量机,也即SVM,号称分类算法,甚至机器学习界老大哥。其理论优美,发展相对完善,是非常受到推崇的算法。 本文将讲解的SVM基于一种最流行的实现 - 序列最小优化,也即SMO。 另外还将讲解将SVM扩展到非线性可分的数据集上的大致方法。 预备术语 1. 分割超平面:就是决策边界 2. 间隔
阅读全文
摘要:前言 本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现。 (说明:从本文开始,将接触到最优化算法相关的学习。旨在将这些最优化的算法用于训练出一个非线性的函数,以用于分类。) 算法原理 首先要提到的概念是回归。 对于回归这个概念,在以后的文章会有系统而深入的
阅读全文
摘要:前言 朴素贝叶斯算法最为广泛而经典的应用毫无疑问是文档分类,更具体的情形是邮件过滤系统。 本文详细地讲解一个基于朴素贝叶斯分类算法的邮件过滤系统的具体实现。 本文侧重于工程实现,至于其中很多算法的细节请参考之前的一篇文章:朴素贝叶斯分类算法原理分析与代码实现 准备数据:切分文本 获取到文本文件之后,
阅读全文
摘要:前言 本文介绍机器学习分类算法中的朴素贝叶斯分类算法并给出伪代码,Python代码实现。 词向量 朴素贝叶斯分类算法常常用于文档的分类,而且实践证明效果是挺不错的。 在说明原理之前,先介绍一个叫词向量的概念。 它一般是一个布尔类型的集合,该集合中每个元素都表示其对应的单词是否在文档中出现。 对应关系
阅读全文
摘要:前言 本文详细介绍机器学习分类算法中的决策树算法,并全面详解如何构造,表示,保存决策树,以及如何使用决策树进行分类等等问题。 为了全面的理解学习决策树,本文篇幅较长,请耐心阅读。 算法原理 每次依据不同的特征信息对数据集进行划分,划分的最终结果是一棵树。 该树的每个子树存放一个划分集,而每个叶节点则
阅读全文