相似度的选择

曼哈顿距离

描述2点之间的绝对值距离,\(L = |x_1 - x_2| + |y_1 - y_2|\)

欧氏距离

描述2点之间的直线距离,\(L = \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2}\)

Pearson相关系数

Pearson 相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但其数值上受量纲的影响很大,不能简单地从协方差的数值大小给出变量相关程度的判断。为了消除这种量纲的影响,于是就有了相关系数的概念。

Cosine相似度

利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。

那么欧式距离和余弦相似度的区别是什么呢?

余弦相似度衡量的是维度间取值方向的一致性,注重维度之间的差异,不注重数值上的差异,而欧氏度量的正是数值上的差异性。

Jaccard相似度

Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值。

posted @ 2021-04-16 00:41  MrDoghead  阅读(127)  评论(0编辑  收藏  举报