频繁项集挖掘之Aprior和FPGrowth算法

频繁项集挖掘的应用多出现于购物篮分析，现介绍两种频繁项集的挖掘算法Aprior和FPGrowth，用以发现购物篮中出现频率较高的购物组合。

基础知识

　　项：“属性-值”对。比如啤酒2罐。
　　项集：项的集合。比如{啤酒2罐，…，尿布5片}
　　K项集：项集中的每个项都有K个项。
　　支持度：项集在训练元组中同时出现的次数（或者比例）。
　　置信度： $A - > B$

Aprior算法

　　Aprior算法的基本思想是由 $K$

连接定理和频繁子集定理

　　连接定理：解决如何由 $K$

Aprior算法步骤

　　1. 扫描数据库，产生候选1项集和频繁项集。
　　2. 从2项集开始循环，由频繁K-1项集生成频繁K项集。
　　2.1 产生候选项集。根据连接定理，产生候选项集（有个排序的要求，加快比较）。
　　2.2 去掉非频繁项集。根据频繁子集定理产生频繁项集。
　　2.3 去掉不符合条件的项集。扫描数据库，计算支持度、置信度、兴趣度，去掉不符合条件的项集。（这地方可变）
　　2.4 判断迭代终止条件。

Apriro优缺点

　　Aprior优点：
　　1）对大型数据库的处理能力，不需要将数库读入内存就可以完成频繁项集的挖掘。
　　Aprior缺点：
　　1）需要多次扫描数据库，效率低下。

FPGrowth算法

　　FPGrowth的基本思想是将原始数据压缩到一个FPTree上，在该树上进行频繁项集的挖掘。（FPTree是共用前缀的）

FPGrowth算法步骤

　　 FPGrowth图解
　　讲地非常好的FPGrowth算法博客（包括原理讲解和代码实现）：
(1)http://blog.csdn.net/huagong_adu/article/details/17739247　　(2)http://www.cnblogs.com/zhangchaoyang/articles/2198946.html

FPGrowth优缺点

　　优点：
　　1）只需要扫描两边数据库，效率高。
　　2）可以并行化实现。
　　缺点：
　　1）受内存大小限制。

posted @ 2018-07-17 16:27 a-du 阅读(1162) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

杜先武博客

资深软件工程师。关注.net、C#、MVC、Java、Spring、Spring boot、Spring cloud、Lucene、ElasticSearch、elk、spark&&ALS。
个人网站 www.a-du.net

频繁项集挖掘之Aprior和FPGrowth算法

基础知识

Aprior算法

连接定理和频繁子集定理

Aprior算法步骤

Apriro优缺点

FPGrowth算法

FPGrowth算法步骤

FPGrowth优缺点

公告

杜先武博客

资深软件工程师。关注.net、C#、MVC、Java、Spring、Spring boot、Spring cloud、Lucene、ElasticSearch、elk、spark&&ALS。个人网站 www.a-du.net

频繁项集挖掘之Aprior和FPGrowth算法

基础知识

Aprior算法

连接定理和频繁子集定理

Aprior算法步骤

Apriro优缺点

FPGrowth算法

FPGrowth算法步骤

FPGrowth优缺点

公告

资深软件工程师。关注.net、C#、MVC、Java、Spring、Spring boot、Spring cloud、Lucene、ElasticSearch、elk、spark&&ALS。
个人网站 www.a-du.net