Frequent Pattern-Apriori

Frequent Pattern频繁模式:频繁地出现在数据集中的模式,Apriori算法是一种挖掘关联规则的频繁项集算法,算法过程描述如下:

前提条件:最小支持度为2

数据集,有四个事务数据 ,分别的商品包括:

事务1:1,3,4(商品id)

事务2:2,3,5

事务3:1,2,3,5

事务4:2,5

扫描数据集,统计每个商品id的数量,{1:2},{2:3},{3:3},{4:1},{5:3}。由于最小支持度为2,而商品id4的数量为1,不满足,过程如下图所示:

image

上图产生项集L1,做自然连接产生项集c2,然后扫描数据集,统计每个项集元素的数量,不满足的过滤掉,过程如下图所示:

image

上图产生项集L2,处理过程一样,最终产生项集L3,过程如下图所示:

image

项集L2和项集L3合并便是最终的频繁模式集,L2{13,23,25,35},L3{235}合并后就是{13,235}

posted @ 2016-03-03 16:33  熊猫太郎  阅读(299)  评论(0编辑  收藏  举报