并行关联规则挖掘综述 笔记

说明,此博客内容(除了个人观点)摘自此文献:

尚学群, and 沈均毅. "并行关联规则挖掘综述." 计算机工程 30.14 (2004): 1-3.

引言:

关联规则挖掘具有计算量大,I/O负载集中的特点。

在单处理器上使用串行算法进行挖掘所需要的时间可能是无法接受的。


1. 关联规则基本概念

关联规则的挖掘分为两个步骤:(1) 找出所有支持度大于最小支持度的频集 (2)  从频集中产生期望的规则

2. 串行关联规则挖掘算法

2.1. Apriori-like 算法

  •  Apriori算法

Agrawal, Rakesh, and Ramakrishnan Srikant. "Fast algorithms for mining association rules." Proc. 20th Int. Conf. Very Large Data Bases, VLDB. Vol. 1215. 1994.

验证候选k-项集中的每个元素来决定是否将其加入k-频集,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描数据库,这就需要很大的1/O负载。

  • Dynamic Hashing and Pruning (DHP算法)

Park, Jong Soo, Ming-Syan Chen, and Philip S. Yu. An effective hash-based algorithm for mining association rules. Vol. 24. No. 2. ACM, 1995.

通过实验可以发现寻找频集的主要计算是在生成频繁2-项集上。

posted @ 2013-09-13 17:07  litaoshoujiao  阅读(173)  评论(0)    收藏  举报