2017年9月5日

FP-growth算法发现频繁项集(一)——构建FP树

摘要: 常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FPGrowth。Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数太多,效率比较低下。FPGrowth不同于Apriori的“试探”策略,算法只需扫描原始数据两遍,通过FP-tree数据结构对原始数据进行压缩,效率较高。FP代表频繁模式(Frequent Pattern) ,算法主要分为两个步骤:FP-tree构建、挖掘频繁项集。本文是FP-growth算法的第一篇,主要介绍如何构建FPTree 阅读全文

posted @ 2017-09-05 22:39 我是8位的 阅读(28191) 评论(5) 推荐(9)

导航