2017年9月8日

FP-growth算法发现频繁项集(二)——发现频繁项集

摘要: 常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FPGrowth。Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数太多,效率比较低下。FPGrowth不同于Apriori的“试探”策略,算法只需扫描原始数据两遍,通过FP-tree数据结构对原始数据进行压缩,效率较高。FP代表频繁模式(Frequent Pattern) ,算法主要分为两个步骤:FP-tree构建、挖掘频繁项集。本文是FP-growth算法的第二篇,主要介绍通过条件FP树发现频繁项集 阅读全文

posted @ 2017-09-08 08:44 我是8位的 阅读(15132) 评论(2) 推荐(5)

导航