《关联规则技术研究》笔记
关联规则技术:
目的:从大量数据中发现项之间有趣的关联和相关关系。
应用:购物篮分析,网站设计与优化,网络入侵检测,交通事故模式分析,药物成分关联分析,蛋白质结构分析,软件bug挖掘,设备故障诊断等领域。
理论研究内容:频繁模式挖掘(最初),闭合模式挖掘,增量挖掘,主观兴趣度挖掘,最大模式挖掘等。
一个典型的关联规则的例子:(不是沃尔玛的啤酒与尿布的例子,因为这是虚构的故事。)
98%的购买轮胎和自动配件的顾客将倾向于同时接受汽修的保修和保养服务。对此经营者可以制定相应的交叉销售、捆绑式销售
以及货架的安排和货存配置等。还可以用于目录设计,附加邮递,基于购买模式的顾客划分,异常客户检测,商品个性化推荐。
经典算法的改进思路,一是控制候选集的规模,二是减少数据库的扫描次数。DHP算法(将K维子集放入Hash桶中),Partition算法(将数据库分为若干个可调入内存的子库),
Sampling算法(选取给定数据库的随机样本),DIC算法(动态模式计数法,把数据库分成有标记开始点的块,可以在任意开始点添加新候选集时,动态评估候选集支持度),
上述算法一定程度上优化了经典Apriori算法,但是仍产生大量的候选集,同时也无法对稀有信息进行分析(有时候正是一些粗糙数据使得分析更有价值),因此,又产生了许多算法。如TreeProjection算法(构建一颗字典序树,),FP_growth经典算法,OpportuneProject算法,以及CT_PRO算法采用高压缩频繁模式树CT_Tree,比FP_tree更好的压缩性,同时避免了递归生成条件子树的开销,使用自底向上、非循环的方式进行挖掘取得了较为理想的挖掘性能。
完全挖掘模式中有大量的冗余模式,另外出现了两种模式挖掘。
频繁闭合模式是指不被任何其他具有相同支持率的频繁模式所包含的频繁模式。A_Close算法利用概念格的技术,Pascal算法采用基于模式计数推理策略。
CLOSET算法以及CLOSET++算法集成了多种优化技术。
最大频繁模式是指不被任何其他频繁模式所包含的频繁模式。Princer_Search算法(自顶向下和自下而上两个方向结合),MAFIA算法(集成了基于内存的深度优先策略搜索和多种剪枝机制),MaxMiner算法(基于频繁超集),基于深度优化的DepthProject算法以及GenMax算法。
在关联规则属性上扩展方面,包括单维和多维关联规则,单层和多层关联规则,加权关联规则,模糊关联规则。
在其他扩展方面,包括带约束的,例外意外的,时序和空间负关联规则,分类关联规则,兴趣度度量。
在关联规则挖掘后处理,聚类 检索 可视化 交互 以及增量挖掘。

浙公网安备 33010602011771号