摘要: 在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓... 阅读全文
posted @ 2014-10-09 21:06 博览群书1991 阅读(581) 评论(0) 推荐(0)
摘要: 1 Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频... 阅读全文
posted @ 2014-10-09 11:18 博览群书1991 阅读(1004) 评论(0) 推荐(0)
摘要: 支持度(Support)的公式是:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。置信度(Confidence)的公式式:Confidence(A->B)=P(A ... 阅读全文
posted @ 2014-10-09 10:22 博览群书1991 阅读(6818) 评论(0) 推荐(0)
摘要: 摘要本文介绍了关联规则的基本概念和分类方法,列举了一些关联规则挖掘算法并简要分析了典型算法,展望了关联规则挖掘的未来研究方向。关键词数据挖掘,关联规则,频集,Apriori算法,FP-树1引言关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题,最近几年已被业界所广... 阅读全文
posted @ 2014-10-09 09:37 博览群书1991 阅读(1238) 评论(0) 推荐(0)