人工智能基础
零. 数学知识
1.回归
用一个 \(M\) 次多项式 \(y(\mathbf{x},\mathbf{w})=\sum\limits_{i=0}^Mw_ix^i\) 去拟合 \(N\) 个数据点 \((x_i,t_i)\),当 \(M\) 越大时拟合的效果越好。
误差函数
可以用 \(E(\mathbf{w})=\frac{1}{2}\sum\limits_{i=1}^n(y(x_i,\mathbf{w})-t_i)^2\) 来衡量拟合的效果。
过拟合
当 \(M\) 过大时,多项式系数很大,形态也很复杂,此时当测试用的数据点进行微调,拟合效果就会很差。
解决方法:
- 增大数据点数量,让多项式尽可能拟合该分布。
- 权重正则化,调整误差函数为 \(E(\mathbf{w})=\frac{1}{2}\sum\limits_{i=1}^n(y(x_i,\mathbf{w})-t_i)^2+\frac{\lambda}{2}||\mathbf{w}||^2\),其中 \(||\mathbf{w}||^2=\mathbf{w}\mathbf{w}^{\mathrm{T}}=\sum\limits_{i=0}^Mw_i^2\),即控制 \(w_i\) 不会过大,正则化效应随着正则化常量 \(\lambda\) 增大而增大。
2.概率论
贝叶斯定理
其中 $Y_1,Y_2\dots $ 构成了对 \(X\) 互斥且完备的划分。
\(P(X|Y_j)\) 为似然 (likelihood),表示在已知随机变量 \(Y\) 的情况下对变量 \(X\) 分布的观测,可以看作是 “可能性”。
\(P(Y_j)\) 为先验 (prior),代表了 \(Y_j\) 的概率分布。
\(P(Y_j|X)\) 为后验概率 (posterior),代表了我们在已知 \(X\) 的结果的情况下对 \(Y\) 的分布的反推。
概率密度函数,累积分布函数
概率密度函数 (PDF) 描述了随机变量 \(X\) 在一个极小区间上的分布概率(因为每一个点处的概率均为 \(0\)),累积分布函数 (CDF) 是 PDF 的积分,即分布在小于等于某个 \(x\) 之前的位置的概率,CDF 单调不降,且位于 \([0,1]\) 之间。
数学期望,方差
数学期望 \(E(X)=\sum p_iP(X=i)\),方差 \(Var(X)=E[(x-E(X))^2]=E[X^2-2XE(X)+E(X)^2]=E(X^2)-E(X)^2\)。
协方差
如果两个随机变量 \(X,Y\) 共有 \(n\) 个可能的取值点对 \((x_i,y_i)_{i=1}^n\),其中以 \(p(x_i,y_i)\) 的概率取到 \((x_i,y_i)\),那么这两个变量的协方差 (Covariance) 为:
\(Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=\sum\limits_{i=1}^np(x_i,y_i)(x_i-E(X))(y_i-E(Y))\)
可以用来衡量变量 \(X,Y\) 之间的相关程度:
假如两个变量正相关,则当一个偏离其数学期望时另一个也会相应的偏离,故 \(Cov(X,Y)>0\)。同理当变量负相关时 \(Cov(X,Y)<0\),无关时 \(Cov(X,Y)=0\)。
协方差矩阵
对于 \(n\) 个随机变量 \(X_1\sim X_n\),它们的协方差矩阵为一个 \(n\times n\) 的矩阵,其中第 \(i\) 行第 \(j\) 列代表了变量 \(X_i,X_j\) 之间的协方差。
显然协方差矩阵的对角线是 \(Var(X_i)\),并且关于对角线对称。
高斯分布
高斯分布(正态分布,Normal Distribution)被记作 \(N(x|\mu,\sigma^2)\),具体的
其中 \(\mu\) 为均值,$\sigma $ 为标准差,\(\sigma^2\) 为方差,当 \(\mu=0,\sigma=1\) 时称作标准正态分布。
高维高斯分布
\(d\) 个随机变量 \(x_1\sim x_d\),设 \(\mathbf{x}=[x_1,x_2\dots x_d]^{\mathrm{T}}\),\(\mathbf{\mu}\) 为每个变量的均值构成的列向量,\(\mathbf{\Sigma}\) 为协方差矩阵,那么高维高斯分布可以写成
特别的,当变量相互独立,即协方差矩阵除了对角线之外的元素均为 \(0\) 时,可以写成:
最大似然估计
最大似然估计 (Maximum Likelihood Estimation,MLE) 是我们现在已知在某分布 \(\theta\) 下获取了 \(N\) 个样本 \(x_1\sim x_n\),我们要估计最可能的 \(\theta\)。
我们反过来对于一个 \(\theta\),定义其似然函数为 \(L(\theta)=\prod p(x_i|\theta)\),用 \(L(\theta)\) 最大的一个 $\theta $ 作为最大似然估计值,记作 \(\theta_{\mathrm{MLE}}\)。
为了减少精度误差,我们将 \(L(\theta)\) 取对数进行运算。
当然在可能的 \(\theta\) 很多时我们不能带入每一个进行求解,此时可以结合数学方法(如求导得到极大值)或者一些数值算法进行计算。
例如当 \(\theta = N(x|\mu,\sigma^2)\) 时,我们对 \(\mu,\sigma\) 分别求偏导:
最大后验概率
在 MLE 中我们没有考虑 \(\theta\) 本身的分布,而最大后验概率(Maximum A Posterior, MAP)则在最大似然的基础上加上了先验分布的影响,即将计算最大的 \(p(X|\theta)\) 变为计算最大的 \(p(X|\theta)p(\theta)\),其余方面没有什么差别。
例如有一枚硬币,在十次投掷中有 \(7\) 次正面朝上,要估计其扔出正面的概率 \(\theta\) ,此时根据常识我们知道这个 \(\theta\) 大概率分布在 \(0.5\) 附近,此时可以选取适当的函数限定 \(\theta\) 的分布,如 Beta 函数 \((Be(x|\alpha,\beta)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)})\),当 \(\alpha=\beta=2\) 时在 \(0.5\) 附近的分布较高。
那么我们即要最大化 \(\theta^8(1-\theta)^4\),根据多元均值不等式可知当 \(\theta=\frac{2}{3}\) 时取到最大值。
3.信息论
自信息
对于某个事件 \(x\),其发生后可以获得的自信息(self-information) \(I(x)=-\log P(x)\)。其满足:
- 发生概率低的事件的信息量大。
- 当两个独立事件 \(x,y\) 发生时,获得的信息量是他们两个的和 \(I(xy)=-\log P(xy)=I(x)+I(y)\)。
\(I(x)\) 以 \(e\) 为底,单位是 nat。
香农熵
对于某个随机变量 \(X\),其香农熵(Shannon entropy)定义为其自信息的期望,即 \(H(X)=-\sum p_i\log p_i\)。
- 信息熵越大时,该变量可以提供的有用信息越多。当 \(X\) 仅在 \(x_0\) 处取值是 \(1\),即确定性事件时,其信息熵为 \(0\)。
- 当概率分布的越均匀时,信息熵越大。
- 同时当也代表了给分布 \(P\) 中的事件进行编码所需的最少二进制位数,此时以 \(2\) 为底。
KL-散度,JS-散度
对于某个概率分布 \(P(x)\),我们用另一个概率分布 \(Q(x)\) 去估计 \(P(x)\) 时的损失定义为 KL-散度(KL-divergence)
根据 \(\ln x\leq x-1\),\(D_{KL}(P||Q)=-\sum p_i\log{\frac{q_i}{p_i}}\geq -\sum p_i(\frac{q_i}{p_i}-1)=0\),即 \(D_{KL}(P||Q)\) 非负,当且仅当 \(P=Q\) 时为 \(0\),这也可以看作是某种意义上的距离,KL-散度越大,距离越大。
但是 KL-散度是非对称的,即 \(D_{KL}(P||Q)\neq D_{KL}(Q||P)\)。
为了弥补非对称性,有 JS-散度(JS-divergence):
\(JS(P||Q)=\frac{1}{2}(KL(P||\frac{P+Q}{2})+KL(Q||\frac{P+Q}{2}))\)

浙公网安备 33010602011771号