摘要:
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓... 阅读全文
posted @ 2014-10-09 21:06
博览群书1991
阅读(581)
评论(0)
推荐(0)
摘要:
1 Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频... 阅读全文
posted @ 2014-10-09 11:18
博览群书1991
阅读(1004)
评论(0)
推荐(0)
摘要:
支持度(Support)的公式是:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。置信度(Confidence)的公式式:Confidence(A->B)=P(A ... 阅读全文
posted @ 2014-10-09 10:22
博览群书1991
阅读(6818)
评论(0)
推荐(0)
摘要:
摘要本文介绍了关联规则的基本概念和分类方法,列举了一些关联规则挖掘算法并简要分析了典型算法,展望了关联规则挖掘的未来研究方向。关键词数据挖掘,关联规则,频集,Apriori算法,FP-树1引言关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题,最近几年已被业界所广... 阅读全文
posted @ 2014-10-09 09:37
博览群书1991
阅读(1238)
评论(0)
推荐(0)

浙公网安备 33010602011771号