【知识】常见相似度度量
相似度度量是一个相对重要的概念。
余弦相似度
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。

我们知道,对于两个向量,如果他们之间的夹角越小,那么我们认为这两个向量是越相似的。余弦相似性就是利用了这个理论思想。它通过计算两个向量的夹角的余弦值来衡量向量之间的相似度值。余弦相似性推导公式如下:
对于两个点/向量:\(x = (x_1,x_2,...,x_n)\,,\,y = (y_1,y_2,...,y_n)\)
\[cos(\theta) = \frac{x\cdot y}{||x||*||y||}=\frac{\sum_{i=1}^n x_iy_i}{\sqrt{\sum_{i=1}^n x_i^2}*\sqrt{\sum_{i=1}^n y_i^2}}
\]
明氏距离
明可夫斯基距离(minkowski distance),又称明氏距离,是欧氏空间中的一种测度,也可以用来表示相似度(距离越近约相似)。
\[dinstance = (\sum\limits_{i=1}^n |x_i-y_i|^p)^{1 \over p}
\]
其中p=1时为曼哈顿距离:
\[man_dinstance = \sum\limits_{i=1}^n |x_i-y_i|
\]
p=2时为欧氏距离:
\[eu_dinstance = \sqrt{\sum\limits_{i=1}^n |x_i-y_i|^2}
\]
皮尔逊相关系数
皮尔逊相关系数( Pearson correlation coefficient),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:

上式定义了总体相关系数,常用希腊小写字母\(\ro\)作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母r代表:

Jaccard系数
Jaccard index , 又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。


浙公网安备 33010602011771号