数据挖掘十大算法简述L7H

一、C4.5　　

　　C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法，它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元祖属于一个互斥的类别中的某一类，C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。

　　C4.5是从ID3算法中衍生出来的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构，其中每个内部节点（非树叶节点）表示在一个属性上的测试，每个分支代表一个测试输出，而每个叶子节点存放一个类别号。一旦建立好了决策树，对于一个未给定类标号的元祖，跟踪一条有根节点到叶节点的路径，该叶节点就存放着该元组的预测。决策树的优势在于不需要任何领域知识或参数设置，适合于探测性的知识发现。

　　优点：产生的分类易于理解，准确率高。

　　缺点：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5只适合能够主流与内存的数据集，当训练集大的无法在内存中容纳时程序无法运行。

二、K-means

　　k-means是一种聚类算法。

　　聚类算法是一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。聚类算法与分类算法最大的区别是：聚类算法是无监督的学习算法，而分类算法属于监督的学习算法。在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧氏距离法。

　　基本K-means算法的思想很简单，事先确定常数K,常数K以为着最终的聚类类别墅，首先随机选定初始点位质心，并通过计算每一个样本与质心之间的相似度（欧氏距离法），将样本点归到最相似的类中，接着重新计算每个类的质心（即为类中心），重复这样的过程，直到质心不在改变，最终就确定了每个样本所属的类别以及每个类的质心，由于每次都要计算所有的样本与每一个质心之间的相似度，故在大规模的数据集上，k-means算法的收敛速度比较慢。

　　流程：

　　1、初始化常数K，随机选取初始点位质心。

　　2、重复以下过程，直到质心不再改变：计算样本与每个之心之间的相似度，将样本归类到最相似的类中。（2）重新计算质心。

　　3、输出最终的质心以及每个类。

posted on 2018-03-07 21:22 L7H 阅读(131) 评论(0) 收藏举报

刷新页面返回顶部

数据挖掘十大算法简述L7H

导航

公告