常用度量函数/距离

常用的距离变换

  • 闵可夫斯基距离/明氏距离(Minkowski Distance)

\[\left(\sum_{i=1}^n|x_i-y_i|^p\right)^{1/p} \]

  • 曼哈顿距离/城市街区距离(Manhattan Distance)

\[d(x,y)=\sum_{i=1}^n|x_i-y_i| \]

  • 欧式距离(Euclidean Distance)

\[d(x,y)=\sqrt{\sum_n^{i=1}(x_i-y_j)^2} \]

  • 切比雪夫距离(Chebyshev distance)

\[d(x,y)=\max_i(|x_i-y_i|) \]

  • 倒角距离
    给定两个点集,他们之间的倒角距离为:

\[\mathrm d_{\mathrm CD}\left(\mathrm S_1,\mathrm S_2\right)=\frac{1}{\mathrm S_1}\sum_{\mathrm x\in\mathrm S_1}\min_{\mathrm y\in\mathrm S_2}||\mathrm x-\mathrm y||_2^2+\frac{1}{\mathrm S_2}\sum_{\mathrm y\in\mathrm S_2}\min_{\mathrm x\in\mathrm S_1}||\mathrm x-\mathrm y||_2^2 \]

  • 马氏距离(Mahalanobis distance)

\[D_M(x,y)=\sqrt{(x-y)^T\Sigma^{-1}(x-y)} \]

  • 汉明距离(Hamming distance)
    二进制对应位置不相同的个数。
  • 杰卡德距离(Jaccard Distance)
    衡量两个集合的差异性。

\[d(A,B)=1-J(A,B)=\frac{|A\cup B|-|A\cap B|}{|A\cup B|} \]

  • 豪斯多夫距离(Hausdorff Distance,HD)
  • 陆地移动距离(Earth Mover’s Distance,EMD)
    image

相似度

  • 余弦相似度(Cosine Similarity)
    几何含义:两个向量夹角的余弦值。

\[ \begin{aligned} cos\theta & =\frac{\sum_{i=1}^n(A_i\times B_i)}{\sqrt{\sum_{i=1}^n(A_i)^2}\times\sqrt{\sum_{i=1}^n(B_i)^2}} \\ &=\frac{A\cdot B}{|A|\times|B|} \end{aligned} \]

  • 皮尔森相关系数(Pearson Correlation Coefficient)
    衡量两个变量之间的线性相关。

\[r=\frac{\sum_{i=1}^n(x_i-\hat{x})(y_i-\hat{y})}{\sqrt{\sum_{i=1}^n\left(x_i-\hat{x}\right)^2\sqrt{\sum_{i=1}^n\left(y_i-\hat{y}\right)^2}}} \]

  • KL散度/相对熵(Kullback-Leibler Divergence)
    衡量两个分布之间的距离,越小越相似。

\[D_{KL}(p||q)=\sum_{i=1}^Np(x_i)\cdot log\frac{p(x_i)}{q(x_i)} \]

  • 互信息(Mutual Information)
    一个随机变量中包含的关于另一个随机变量的信息量,或者说一个随机变量由于已知另一个随机变量而减少的不确定性。

\[I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} \]

posted @ 2023-11-22 11:07  grdiv  阅读(192)  评论(0)    收藏  举报