常见的距离算法和相似度（相关系数）计算方法

摘要：

　　1.常见的距离算法

　　　　1.1欧几里得距离（Euclidean Distance）以及欧式距离的标准化（Standardized Euclidean distance）

　　　　1.2马哈拉诺比斯距离（Mahalanobis Distance）

　　　　1.3曼哈顿距离（Manhattan Distance）

　　　　1.4切比雪夫距离（Chebyshev Distance）

　　　　1.5明可夫斯基距离（Minkowski Distance）

　　　　1.6海明距离（Hamming distance）

　　 2.常见的相似度（系数）算法

　　　　2.1余弦相似度（Cosine Similarity）以及调整余弦相似度（Adjusted Cosine Similarity）

　　　　2.2皮尔森相关系数（Pearson Correlation Coefficient）

　　　　2.3Jaccard相似系数（Jaccard Coefficient）

　　　　2.4Tanimoto系数（广义Jaccard相似系数）

　　　　2.5对数似然相似度/对数似然相似率

　　　　2.6互信息/信息增益，相对熵/KL散度

　　　　2.7信息检索--词频-逆文档频率（TF-IDF）

　　　　2.8词对相似度--点间互信息

　　3.距离算法与相似度算法的选择（对比）

内容：

　　1.常见的距离算法

　　　　1.1欧几里得距离（Euclidean Distance）

　　　　公式：

　　　　标准欧氏距离的思路：现将各个维度的数据进行标准化：标准化后的值 = ( 标准化前的值－分量的均值 ) /分量的标准差，然后计算欧式距离

　　　　欧式距离的标准化（Standardized Euclidean distance）

　　　　公式：

　　　　1.2马哈拉诺比斯距离（Mahalanobis Distance）

　　　　公式：

　　　关系：若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离；如果去掉马氏距离中的协方差矩阵，就退化为欧氏距离。欧式距离就好比一个参照值，它表征的是当所有类别等概率出现的情况下，类别之间的距离；当类别先验概率并不相等时，马氏距离中引入的协方差参数（表征的是点的稀密程度）来平衡两个类别的概率。

　　　特点：量纲无关，排除变量之间的相关性的干扰。

　扩展

　　　　1.3曼哈顿距离（Manhattan Distance）

　　　　公式：

　　　　定义：通俗来讲，想象你在曼哈顿要从一个十字路口开车到另外一个十字路口实际驾驶距离就是这个“曼哈顿距离”，此即曼哈顿距离名称的来源，同时，曼哈顿距离也称为城市街区距离(City Block distance)。

　　　　1.4切比雪夫距离（Chebyshev Distance）

　　　　公式：

　　　　1.5明可夫斯基距离（Minkowski Distance）

　　　　定义：

　　　　关系：明氏距离是欧氏距离的推广，是对多个距离度量公式的概括性的表述。p=1退化为曼哈顿距离；p=2退化为欧氏距离；切比雪夫距离是明氏距离取极限的形式。这里明可夫斯基距离就是p-norm范数的一般化定义。

　　　下图给出了一个Lp球（||X||p=1）的形状随着P的减少的可视化图：

　　　　　　参照：浅谈L0,L1,L2范数及其应用；机器学习中的范数与距离；浅谈压缩感知（十）：范数与稀疏性

　　　　1.6海明距离（Hamming distance）

　　　　定义：在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。

　　　　场景：在海量物品的相似度计算中可用simHash对物品压缩成字符串，然后使用海明距离计算物品间的距离

　　　　参考simHash 简介以及 java 实现；相似度计算常用方法综述；通过simHash判断数组内容相同（或者网页排重）的测试代码

　　2.常见的相似度（系数）算法

　　　　2.1余弦相似度（Cosine Similarity）

　　　　公式：

　　　　定义：两向量越相似，向量夹角越小，cosine绝对值越大；值为负，两向量负相关。

　　　　不足：只能分辨个体在维之间的差异，没法衡量每个维数值的差异（比如用户对内容评分，5分制，X和Y两个用户对两个内容的评分分别为（1，2）和（4，5），使用余弦相似度得出的结果是0.98，两者极为相似，但从评分上看X似乎不喜欢这2个内容，而Y比较喜欢，余弦相似度对数值的不敏感导致了结果的误差，需要修正这种不合理性）

　　　调整余弦相似度（Adjusted Cosine Similarity）

　　　　公式：，其中Here $\bar{R_{u}}$ is the average of the u-th user's ratings.

　　　　2.2皮尔森相关系数（Pearson Correlation Coefficient）

　　　　定义：两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商

　　　　扩展

　　　　2.3Jaccard相似系数（Jaccard Coefficient）

　　　　公式：，这里X,Y不再是向量，而变成了集合

　　　　定义：Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度，无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。Jaccard系数等于样本集交集与样本集合集的比值。

　　　　计算：假设样本A和样本B是两个n维向量，而且所有维度的取值都是0或1。例如，A（0,1,1,0）和B（1,0,1,1）。我们将样本看成一个集合，1表示集合包含该元素，0表示集合不包含该元素。

　　　　p：样本A与B都是1的维度的个数

　　　　q：样本A是1而B是0的维度的个数

　　　　r：样本A是0而B是1的维度的个数

　　　　s：样本A与B都是0的维度的个数

　　　　那么样本A与B的杰卡德相似系数可以表示为：

　　　　附：与Jaccard Coefficient相对应的是Jaccard 距离：d(X,Y) = 1 - Jaccard(X,Y);杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。(参考自余弦距离、欧氏距离和杰卡德相似性度量的对比分析)

　　　　2.4Tanimoto系数（广义Jaccard相似系数）

　　　　公式：

　　　　定义：广义Jaccard相似度，元素的取值可以是实数。又叫作谷本系数

　　　　关系：如果我们的x,y都是二值向量，那么Tanimoto系数就等同Jaccard距离。

　　　　2.5对数似然相似率

　　　　对于事件A和事件B，我们考虑两个事件发生的次数：

　　　　k11：事件A与事件B同时发生的次数
　　　　k12：B事件发生，A事件未发生
　　　　k21：A事件发生，B事件未发生
　　　　k22：事件A和事件B都未发生

　　　　
　　　　rowEntropy = entropy(k11, k12) + entropy(k21, k22)
　　　　columnEntropy = entropy(k11, k21) + entropy(k12, k22)
　　　　matrixEntropy = entropy(k11, k12, k21, k22)
　　　　2 * (matrixEntropy - rowEntropy - columnEntropy)

　　　详情扩展

　　　　2.6互信息/信息增益，相对熵/KL散度

　　　　互信息/信息增益：信息论中两个随机变量的相关性程度

　　　　公式：