2014 年 10月 9 日随笔档案 - 博览群书1991

2014年10月9日

摘要：在关联规则挖掘领域最经典的算法法是Apriori，其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪（prune）数据集的方法以减少I/O开支，韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法，频繁项集就是所谓... 阅读全文

posted @ 2014-10-09 21:06 博览群书1991 阅读(584) 评论(0) 推荐(0)

Apriori算法例子

摘要： 1 Apriori介绍Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。首先，通过扫描事务（交易）记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集。最后再在所有的频... 阅读全文

posted @ 2014-10-09 11:18 博览群书1991 阅读(1010) 评论(0) 推荐(0)

支持度(support)和置信度(confidence)

摘要：支持度(Support)的公式是：Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小，说明A与B的关系不大；如果A与B同时出现的非常频繁，则说明A与B总是相关的。置信度(Confidence)的公式式：Confidence(A->B)=P(A ... 阅读全文

posted @ 2014-10-09 10:22 博览群书1991 阅读(6838) 评论(0) 推荐(0)

关联规则挖掘算法综述

摘要：摘要本文介绍了关联规则的基本概念和分类方法，列举了一些关联规则挖掘算法并简要分析了典型算法，展望了关联规则挖掘的未来研究方向。关键词数据挖掘，关联规则，频集，Apriori算法，FP-树1引言关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题，最近几年已被业界所广... 阅读全文

posted @ 2014-10-09 09:37 博览群书1991 阅读(1242) 评论(0) 推荐(0)

博览群书1991

公告