21/7/9 读书笔记 关联模式的客观度量 辛普森悖论
21/7/9 读书笔记
数据挖掘导论 关联模式的评估
即使我们对支持度和置信度设定合理的阈值,关联分析算法仍然能够产生大量的关联规则。这些规则或许都是有效的,但是却不一定是我们需要的。将代表感兴趣的方向的主观论据引入模式的评价,从而对以量化的方式从主观需求上进行模式的评估。本节中我们探讨如何分析提取出我们感兴趣的关联模式。
支持度-置信度框架的缺点
支持度-置信度框架下,我们采用支持度和置信度的评估方式,试图挖掘出我们所需要的有效的关联模式。但是支持度的缺点在于大量潜在的有意义的模式由于包含了支持度较小的项而被筛去(即使该模式对于该项具有显著意义,仍然会因为项自身的支持度过低而删去。可以参考不平衡类问题,一些稀少的项可能也具有显著意义);置信度的缺点在于忽略了后件的支持度,比如在置信度阈值为40%的情况下,喜欢二次元的人自然占了70%,此时考虑\(计算机专业\to 喜欢二次元\)这一关联规则,由于我们都是从计算机专业中采样,所以得出的置信度水平为60%。但是我们发现原本就喜欢二次元的人占了70%,加入前件的限制后反而下降到60%,说明计算机专业和二次元间存在逆关系,解释了支持度-置信度框架的另一个不足。
兴趣度的可观度量
提升度和兴趣因子
提升度考虑了规则置信度和规则后件的关系,计算了规则置信度和后件的支持度用下式表示:
兴趣因子则比较模式的频率和统计独立情况下假定的基线频率的比值,从而说明模式的出现与关联程度的关系。
在面对二元变量时,提升度和兴趣因子等价
兴趣因子的局限性在于忽略了显而易见的模式(当前后件的独立概率很大时,其联合概率即使也很大,最终的比值可能会偏小),而过分估计了稀少的模式(当前后件独立概率很小时,即使联合概率也很小,最终的比值可能会偏大)
相关分析
利用相关度描述变量间关系。对于连续变量,相关度用皮尔森相关系数定义(见2.4.5节公式2-10);对于二元变量,相关度用\(\phi\)系数表示:
相关度从-1到1,从完全负相关到完全正相关。注意二元变量下,相关度将“项出现”和“项不出现”视作相同重要性,因此更适合对称的二元变量
IS度量
IS度量是用于处理非对称二元变量的一种度量方法:
IS度量与置信度有关,因此和置信度一样偏向于将不相关或负相关的模式高估
客观度量的性质
不同的客观度量之间对于同一个问题可能得出不同的结果,其计算得出的关联模式之间的相对次序不同。我们总结出几条性质来描述客观度量,满足相同性质的客观度量之间通常保持对问题的相同计算结果。
反演性
当二元变量中0与1翻转(即“不出现”与“出现”的状况进行对调),如果度量的结果不变,称其为反演不变。反演不变的度量对于对称性二元变量问题更可取。
零加性
向数据中添加无关数据,度量的结果保持不变,称其为满足零加性。满足零加性的度量能够在文档分析、购物篮分析的应用中在大量无关数据的影响下依然保持性能
缩放性
对于A和B一对二元变量,保持\(B:\overline B\)和\(A:\overline A\)不变,而\(B:A\)改变,度量的结果保持不变,称其为缩放不变。缩放不变的度量只考虑变量的分布而不考虑模式的数量。
辛普森悖论
考虑学校中计算机专业和喜欢二次元之间的关系,其中人可按老师和学生分为两类:
| 人 | 计算机专业\喜欢二次元 | 是 | 否 | 总数 |
|---|---|---|---|---|
| 老师 | 是 | 1 | 9 | 10 |
| 否 | 4 | 30 | 34 | |
| 学生 | 是 | 98 | 72 | 170 |
| 否 | 50 | 36 | 86 |
如果不考虑老师和学生间的区别,我们计算\(计算机专业\to 喜欢二次元\)的置信度是55%,而\(非计算机专业\to 喜欢二次元\)的置信度是45%。但是我们如果分别计算学生和老师群体中该模式的置信度,则会得到(10%, 11.8%)和(57.7%, 58.1%),其反映的结果与从整体上看截然相反!我们称这种现象为辛普森悖论。
辛普森悖论的出现与二元变量的分布在不同层(在这里表现为老师和学生)间存在差异。为了避免辛普森悖论产生虚假的模式,我们需要对数据进行合理的分层。

浙公网安备 33010602011771号