三，专著研读

支持度：几个关联的数据在数据集中出现的次数所占数据集的比重。支持度是针对項集来说的，可以定义一个最小支持度，保留满足最小支持度的項集，起到項集过滤。
置信度：一个数据出现后，另外一个数据出现的概率（数据的条件概率），(例：豆奶-莴苣/莴苣)
\(Confidence\left ( X\rightarrow Y \right )=P\left ( X\mid Y \right )=\frac{P\left ( XY \right )}{P\left ( Y \right )}\)

多个数据的置信度

\(Confidence\left ( X\rightarrow YZ \right )=P\left ( X\mid YZ \right )= \frac{P\left ( XYZ \right )}{P\left ( YZ \right )}\)

提升度：含有Y条件下同时含有X的概率，与X总体发生的概率之比，也就是X对Y的提升度。
\(Lift\left (X \rightarrow Y \right )=\frac{P\left (X \mid Y \right )}{P\left ( X \right )}=\frac{Confidence\left ( X\rightarrow Y \right )}{p\left ( X \right )}\)
先验性质：频繁項集的子集也是频繁項集，非频繁項集的超级是非频繁的（重点）。
Apriori：
Apriori对每个潜在的频繁項集，都会扫描判定是否是频繁的。
FP-growth：
两次扫描（对关键字进行排序），FP只是一个更高效的发现频繁項集的算法，不能用于发现关联规则。

posted @ 2019-07-24 14:37 周安伟阅读(149) 评论(0) 收藏举报

刷新页面返回顶部