机器学习相关知识
# 机器学习相关知识 [TOC] ## 数据类型 + 连续型 + 离散型 + 标称型 ## 概念 + 离散化 对于在连续性随机变量上计算信息熵,需要将变量离散化。其概率密度函数$f(x)$的定义为: $$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^\frac{-(x-\mu)^2}{2\sigma^2} \qquad \mu=\frac{1}{n}\sum_{i=1}^{n}x_i \qquad \sigma=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \mu)^2} $$ 这里$f(x)$的是`概率密度`并不是`相关概率`,所以其值可能`>1`,详情请查阅任意一本概率统计书籍。 + 归一化 当样本中的数据的度量单位不一致的时候,使用这些距离度量公式的时候有一个非常大的弊端,就是量纲较大的属性产生的影响会显得比较大很肯能掩盖掉了一些很重要的属性的影响,为此我们需要对数据进行标准化。使他们处于同一个水平进行比较和度量。对于标准化后的数据进行训练,不能对新来的未知数据的预测有较好的鲁棒性。下图是标准化转换计算公式 **1. min-max标准化(Min-Max Normalization)** 也称为离差标准化,是对原始数据的线性变换,使结果值映射到`[0 - 1]`之间。转换函数如下: $$ X^* = \frac{x-min}{max-min}$$ 其中`max`为样本数据的最大值,`min`为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致`max`和`min`的变化,需要重新定义。 **2. Z-score标准化方法** 这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即```均值为0,标准差为1```,转化函数为: $$ X^* = \frac{x-u}{\sigma} $$ + 正则化 ## 度量指标 + 欧几里得距离 $$d(x,y)=\Vert x-y \Vert =\sqrt{\displaystyle \sum_{i=1}^n(x_i-y_i)^2}$$ + 余弦相似度 $$cos(\theta)= \frac{ A \bullet B}{\Vert A \Vert \Vert B \Vert}=\frac{\displaystyle \sum_{i=1}^nA_i \times B_i}{\sqrt{\displaystyle \sum_{i=1}^n(A_i)^2 \times \displaystyle \sum_{i=1}^n(B_i)^2}}$$
