Pattern Evaluation

对相关性patten质量的常用分析指标有以下这些

其中,X^2 跟 lift不是null-invariant的,也就是说当~A~B项较多时,这两个指标不是很可靠。

据Jiawei Han所言,Kulczynski这个指标是比较稳定而好用的,同时还要辅助观察imbalance ratio来看评价结果的争议程度

一个具体使用例子为:

最后总结一下:

我们进行Patten Mining,主要是为了找到一起出现的可能性足够高且争议不大的“组”。

那么,我们追求的便是:

1. Kulczynski值足够大(接近1)

2. IR相对小(接近0)

posted @ 2015-02-23 11:10  KevinHwang  阅读(223)  评论(0编辑  收藏  举报