21/7/10 读书笔记 倾斜支持度分布

21/7/10 读书笔记

暂停一下,我简单讲两句,昨天突然生病了,导致这几天身体都比较虚弱,头疼不已,所以工作量会减少一点。另外这周会有论文阅读任务,到时候一并放到读书笔记里

数据挖掘导论 倾斜支持度分布的影响

倾斜支持度分布,指在输入的事务数据中,大多数的项具有较低或中等频率,而少数项具有很高的频率,形成了一种不均匀的频率分布。

在具有倾斜支持度分布的数据中进行关联模式的挖掘,将带来这样几个问题:

  • 有的模式因为参与的项频率比较低,导致支持度较小,而这些模式又可能具有很高的应用意义
  • 有的模式因为参与的项频率很高,导致支持度较高,但是这些模式通常具有欺骗性,尤其当其中个别项频率很高而其他项频率较低。频率高的项出现在包含频率较低的项的事务中是意料之中的事情,并不能揭示什么规律
    • 交叉支持模式:用于描述高频率项和低频率项相关联的虚假模式,引入支持度比率,当该模式的支持度比率低于某个用户给定的阈值时,我们认为这个模式是交叉支持模式
      • 支持度比率:模式中频率最低的项的支持度除以频率最高的项的支持度,反映了模式中项的频率的偏差情况

我们从支持度-置信度框架来考虑交叉支持模式:

  • 支持度阈值过高,我们将失去很多有意义的模式
  • 支持度阈值过低,我们会得到大量的交叉支持模式,而且还加大了计算量(因为减少了剪枝)
  • 交叉支持模式的置信度同样很高,因为考虑\(X_{频率低}\to X_{频率高}\),频率高的项在包含频率低的事务中出现并不奇怪,使得最终的置信度较高

可见从支持度的角度考虑交叉支持模式的问题,我们横竖都很难找到方法。但是从置信度的角度看虽然\(X_{频率低}\to X_{频率高}\)置信度很高,但是\(X_{频率高}\to X_{频率低}\)的置信度却通常很低,我们由此推出一个考虑置信度最小值的方法:

全置信度(或h置信度):对关联模式\(A\to B\),我们考虑\(C,D\subseteq A\bigcup B\),得到关联模式\(C\to D\),所能取得的最小的置信度,称为原模式的全置信度。根据分析我们能够知道,全置信度情况下,前件是\(A\bigcup B\)中频率最高的项,后件是其余所有项的集合。全置信度拥有以下的性质

\[h-confidence\leq\frac{\min(s(i_1),s(i_2),...,s(i_k))}{\max(s(i_1),s(i_2),...,s(i_k))}=支持度比率\\ h-confidence(\{i_1,i_2,...,i_k\})\leq h-confidence(\{i_1,i_2,...,i_k+1\}),反单调性 \]

注意全置信度通常用来描述一个频繁项集,假设一个频繁项集的全置信度是90%,那么说明如果其中一个项出现在事务中,那么其他项至少有90%同时出现,表现出很强的关联性,因此这种强关联模式又称超团模式

posted @ 2021-07-10 17:03  neumy  阅读(217)  评论(0)    收藏  举报