随笔分类 -  【05-★】机器学习_学习笔记

摘要:本文将介绍一种专门检索频繁项集的新算法 - FP-growth 算法。 它只会扫描数据集两次,能顺序挖掘出频繁项集。因此这种算法在网页信息处理中占据着非常重要的地位。 阅读全文
posted @ 2017-01-19 13:58 穆晨 阅读(1805) 评论(0) 推荐(0)
摘要:想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事。 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 阅读全文
posted @ 2017-01-19 11:22 穆晨 阅读(4495) 评论(0) 推荐(0)
摘要:现在开始,将进入到非监督学习领域。从经典的聚类问题展开讨论。所谓聚类,就是事先并不知道具体分类方案的分类 (允许知道分类个数)。 本文将介绍一个最为经典的聚类算法 - K-Means 聚类算法以及它的两种实现。 阅读全文
posted @ 2017-01-19 10:58 穆晨 阅读(16981) 评论(1) 推荐(1)
摘要:前文讨论的回归算法都是全局且针对线性问题的回归,即使是其中的局部加权线性回归法,也有其弊端(具体请参考前文) 采用全局模型会导致模型非常的臃肿,因为需要计算所有的样本点,而且现实生活中很多样本都有大量的特征信息。 另一方面,实际生活中更多的问题都是非线性问题。 针对这些问题,有了树回归系列算法。 阅读全文
posted @ 2017-01-19 10:43 穆晨 阅读(4856) 评论(0) 推荐(1)
摘要:本文将系统的介绍机器学习中监督学习的回归部分,系统的讲解如何利用回归理论知识来预测出一个分类的连续值。 显然,与监督学习中的分类部分相比,它有很鲜明的特点:输出为连续值,而不仅仅是标称类型的分类结果。 阅读全文
posted @ 2017-01-19 10:34 穆晨 阅读(718) 评论(0) 推荐(0)
摘要:本文就将介绍一些新的衡量分类质量的参数,工具。基于这些,可以对分类代码进行优化,以得到更符合实际用途的分类器。 阅读全文
posted @ 2017-01-19 10:10 穆晨 阅读(1558) 评论(0) 推荐(1)
摘要:有人认为 AdaBoost 是最好的监督学习的方式。 某种程度上因为它是元算法,也就是说它会是几种分类器的组合。这就好比对于一个问题能够咨询多个 "专家" 的意见了。 组合的方式有多种,可能是不同分类算法的分类器,可能是同一算法在不同设置下的集成,还可以是数据集在不同部分分配给不同分类器之后的集成等等。 本文将给出的 AdaBoost 分类器实现基于第二种 (另外几种实现在此基础上稍作改动即可)。 阅读全文
posted @ 2017-01-19 10:08 穆晨 阅读(1233) 评论(0) 推荐(0)
摘要:支持向量机,也即SVM,号称分类算法,甚至机器学习界老大哥。其理论优美,发展相对完善,是非常受到推崇的算法。 本文将讲解的SVM基于一种最流行的实现 - 序列最小优化,也即SMO。 另外还将讲解将SVM扩展到非线性可分的数据集上的大致方法。 阅读全文
posted @ 2017-01-19 10:06 穆晨 阅读(4040) 评论(0) 推荐(0)
摘要:本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现。 (说明:从本文开始,将接触到最优化算法相关的学习。旨在将这些最优化的算法用于训练出一个非线性的函数,以用于分类。) 阅读全文
posted @ 2017-01-19 09:27 穆晨 阅读(13586) 评论(0) 推荐(0)
摘要:朴素贝叶斯算法最为广泛而经典的应用毫无疑问是文档分类,更具体的情形是邮件过滤系统。本文详细地讲解一个基于朴素贝叶斯分类算法的邮件过滤系统的具体实现。 阅读全文
posted @ 2017-01-19 09:18 穆晨
摘要:本文介绍机器学习分类算法中的朴素贝叶斯分类算法并给出伪代码,Python代码实现。 阅读全文
posted @ 2017-01-19 09:02 穆晨 阅读(17601) 评论(0) 推荐(0)
摘要:本文详细介绍机器学习分类算法中的决策树算法,并全面详解如何构造,表示,保存决策树,以及如何使用决策树进行分类等等问题。为了全面的理解学习决策树,本文篇幅较长,请耐心阅读。 阅读全文
posted @ 2017-01-19 09:00 穆晨 阅读(23010) 评论(2) 推荐(3)
摘要:本文将继续讲解K-近邻算法的项目实例 - 手写识别系统。该系统在获取用户的手写输入后,判断用户写的是什么...... 阅读全文
posted @ 2017-01-19 08:58 穆晨
摘要:假如你想到某个在线约会网站寻找约会对象,那么你很可能将该约会网站的所有用户归为三类:1. 不喜欢的 2. 有点魅力的 3. 很有魅力的。所以你如何决定某个用户属于上述的哪一类呢?想必...... 阅读全文
posted @ 2017-01-19 08:53 穆晨
摘要:本文介绍机器学习分类算法中的K-近邻算法并给出伪代码与Python代码实现。 阅读全文
posted @ 2017-01-19 08:49 穆晨 阅读(2302) 评论(0) 推荐(0)