随笔分类 -  数据挖掘

关联规则、分类、聚类
摘要:转自:http://blog.csdn.net/aladdina/article/details/41411771.C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2) 在树构造过程中进行剪枝;3) 能够完成对连续属性的离散化处理;4) 能够对不完整数据进行处理。C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的 阅读全文
posted @ 2013-06-17 12:13 路过你的苦 阅读(190) 评论(0) 推荐(0)
摘要:转自:http://www.cnblogs.com/witxjp/archive/2003/09/23/1986213.html http://www.cnblogs.com/xinyuyuanm/archive/2013/03/24/2979661.html摘 要本文介绍了关联规则的基本概念和分类方法,列举了一些关联规则挖掘算法并简要分析了典型算法,展望了关联规则挖掘的未来研究方向。关键词: 数据挖掘,关联规则,频集,Apriori算法,FP-树,垂直数据格式1 引言关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联... 阅读全文
posted @ 2013-06-16 09:10 路过你的苦 阅读(390) 评论(0) 推荐(0)