数据挖掘十大算法简述L7H

一、C4.5  

  C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法,它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元祖属于一个互斥的类别中的某一类,C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。

  C4.5是从ID3算法中衍生出来的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分支代表一个测试输出,而每个叶子节点存放一个类别号。一旦建立好了决策树,对于一个未给定类标号的元祖,跟踪一条有根节点到叶节点的路径,该叶节点就存放着该元组的预测。决策树的优势在于不需要任何领域知识或参数设置,适合于探测性的知识发现。

  优点:产生的分类易于理解,准确率高。

  缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合能够主流与内存的数据集,当训练集大的无法在内存中容纳时程序无法运行。

二、K-means

  k-means是一种聚类算法。

  聚类算法是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。聚类算法与分类算法最大的区别是:聚类算法是无监督的学习算法,而分类算法属于监督的学习算法。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧氏距离法。

  基本K-means算法的思想很简单,事先确定常数K,常数K以为着最终的聚类类别墅,首先随机选定初始点位质心,并通过计算每一个样本与质心之间的相似度(欧氏距离法),将样本点归到最相似的类中,接着重新计算每个类的质心(即为类中心),重复这样的过程,直到质心不在改变,最终就确定了每个样本所属的类别以及每个类的质心,由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规模的数据集上,k-means算法的收敛速度比较慢。

  流程:

  1、初始化常数K,随机选取初始点位质心。

  2、重复以下过程,直到质心不再改变: 计算样本与每个之心之间的相似度,将样本归类到最相似的类中。(2)重新计算质心。

  3、输出最终的质心以及每个类。

posted on 2018-03-07 21:22  L7H  阅读(131)  评论(0)    收藏  举报

导航