Maximal Information Coefficient (MIC)
Maximal Information Coefficient (MIC) has then emerged as the best bivariate synchronization measurement for analyses in terms of nonlinearity and robustness to noise[1].
*What's the MIC?
MIC的目的是测量两个随机变量之间的线性或非线性同步关系。
MIC是一种信息性的度量方法,来识别在可能非常大的数据集中具有最强关系的子集。
MIC是一个正实值,它的值域在 0 和 1 之间,值越高表示相关性越强。
*MIC function
给定两个随机变量,比如两个时间序列,每个变量的数据元素按照降序或者升序重新排列,得到一个有序对。
对于有序对的有限集合D,D的x值和y值分别被划分到x箱和y箱(允许有空箱)。一对这样的分区被命名为x-y网格。
每个网格划分下的最大相互信息通过以下公式(1)被分配到I*:
(1)
其中,最大值在整个具有x行Y列的G中被识别,并且,I(D|G)表示D|G的互信息。
D的特征矩阵是一个带有项的无限矩阵:

原始的双变量数据的MIC(样本大小n和网格大小小于B(n))由以下公式给出:

其中,对于
,
。参考使用
(有一个限制条件,样本大小n和网格大小小于B(n),所有的方格格总数不能大于B。B取数据总量的0.6或者0.55次方。应该是个经验值)
*MIC Properties
1)有界性,特征矩阵的所有项都在0和1之间;
2)对称性,当D的x和y值被互换时,特征矩阵保持不变;
3)不变性,特征矩阵在D的x-和y-值的保序变换下是不变的,因为分布D|G只依赖于数据的排序。
补充:
优点:
generality:拥有足够的统计样本时,可以捕获广泛的关系,而不限定于特定的函数类型(如线性、指数型、周期型等)。
MIC度量具有普适性。其不仅可以发现变量间的线性函数关系,还能发现非线性函数关系(指数的,周期的);不仅能发现函数关系,还能发现非函 数关系(比如函数关系的叠加,或者有趣的图形模式)。
equitability:对不同类型的噪声程度同等的关系给予相近的分数。
MIC度量具有均衡性。对于相同噪声水平的函数关系或者非函数关系,MIC度量具有近似的值。所以MIC度量不仅可以用来纵向比较同一相关关 系的强度,还可以用 来横向比较不同关系的强度。
缺点:“
MIC的统计能力遭到了一些质疑,当零假设不成立时,MIC的统计就会受到影响。在有的数据集上不存在这个问题,但有的数据集上就存在这个问 题。
MIC的测量只能表示双变量数据的同步强度。
原理详见:http://www.omegaxyz.com/2018/01/18/mic/
*CODE
https://blog.csdn.net/u014271612/article/details/5178125
https://blog.csdn.net/qtlyx/article/details/50780400
参考文献:
[1]Towards Brain Big Data Classification: Epileptic EEG Identification With a Lightweight VGGNet on Global MIC

浙公网安备 33010602011771号