人工智能基础

零. 数学知识

1.回归

用一个 \(M\) 次多项式 \(y(\mathbf{x},\mathbf{w})=\sum\limits_{i=0}^Mw_ix^i\) 去拟合 \(N\) 个数据点 \((x_i,t_i)\),当 \(M\) 越大时拟合的效果越好。

误差函数

可以用 \(E(\mathbf{w})=\frac{1}{2}\sum\limits_{i=1}^n(y(x_i,\mathbf{w})-t_i)^2\) 来衡量拟合的效果。

过拟合

\(M\) 过大时,多项式系数很大,形态也很复杂,此时当测试用的数据点进行微调,拟合效果就会很差。

解决方法:

  • 增大数据点数量,让多项式尽可能拟合该分布。
  • 权重正则化,调整误差函数为 \(E(\mathbf{w})=\frac{1}{2}\sum\limits_{i=1}^n(y(x_i,\mathbf{w})-t_i)^2+\frac{\lambda}{2}||\mathbf{w}||^2\),其中 \(||\mathbf{w}||^2=\mathbf{w}\mathbf{w}^{\mathrm{T}}=\sum\limits_{i=0}^Mw_i^2\),即控制 \(w_i\) 不会过大,正则化效应随着正则化常量 \(\lambda\) 增大而增大。

2.概率论

贝叶斯定理

\[P(Y_j|X)=\frac{P(X|Y_j)P(Y_j)}{P(X)}=\frac{P(X|Y_j)P(Y_j)}{\sum_i P(X|Y_i)P(Y_i)} \]

其中 $Y_1,Y_2\dots $ 构成了对 \(X\) 互斥且完备的划分。

\(P(X|Y_j)\) 为似然 (likelihood),表示在已知随机变量 \(Y\) 的情况下对变量 \(X\) 分布的观测,可以看作是 “可能性”。

\(P(Y_j)\) 为先验 (prior),代表了 \(Y_j\) 的概率分布。

\(P(Y_j|X)\) 为后验概率 (posterior),代表了我们在已知 \(X\) 的结果的情况下对 \(Y\) 的分布的反推。

概率密度函数,累积分布函数

概率密度函数 (PDF) 描述了随机变量 \(X\) 在一个极小区间上的分布概率(因为每一个点处的概率均为 \(0\)),累积分布函数 (CDF) 是 PDF 的积分,即分布在小于等于某个 \(x\) 之前的位置的概率,CDF 单调不降,且位于 \([0,1]\) 之间。

数学期望,方差

数学期望 \(E(X)=\sum p_iP(X=i)\),方差 \(Var(X)=E[(x-E(X))^2]=E[X^2-2XE(X)+E(X)^2]=E(X^2)-E(X)^2\)

协方差

如果两个随机变量 \(X,Y\) 共有 \(n\) 个可能的取值点对 \((x_i,y_i)_{i=1}^n\),其中以 \(p(x_i,y_i)\) 的概率取到 \((x_i,y_i)\),那么这两个变量的协方差 (Covariance) 为:

\(Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=\sum\limits_{i=1}^np(x_i,y_i)(x_i-E(X))(y_i-E(Y))\)

可以用来衡量变量 \(X,Y\) 之间的相关程度:

假如两个变量正相关,则当一个偏离其数学期望时另一个也会相应的偏离,故 \(Cov(X,Y)>0\)。同理当变量负相关时 \(Cov(X,Y)<0\),无关时 \(Cov(X,Y)=0\)

协方差矩阵

对于 \(n\) 个随机变量 \(X_1\sim X_n\),它们的协方差矩阵为一个 \(n\times n\) 的矩阵,其中第 \(i\) 行第 \(j\) 列代表了变量 \(X_i,X_j\) 之间的协方差。

显然协方差矩阵的对角线是 \(Var(X_i)\),并且关于对角线对称。

高斯分布

高斯分布(正态分布,Normal Distribution)被记作 \(N(x|\mu,\sigma^2)\),具体的

\[N(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^2}(x-\mu)^2} \]

其中 \(\mu\) 为均值,$\sigma $ 为标准差,\(\sigma^2\) 为方差,当 \(\mu=0,\sigma=1\) 时称作标准正态分布。

高维高斯分布

\(d\) 个随机变量 \(x_1\sim x_d\),设 \(\mathbf{x}=[x_1,x_2\dots x_d]^{\mathrm{T}}\)\(\mathbf{\mu}\) 为每个变量的均值构成的列向量,\(\mathbf{\Sigma}\) 为协方差矩阵,那么高维高斯分布可以写成

\[N(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma})=\frac{1}{(\sqrt {2\pi})^d|\mathbf{\Sigma}|^{1/2}}\exp \{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})\} \]

特别的,当变量相互独立,即协方差矩阵除了对角线之外的元素均为 \(0\) 时,可以写成:

\[N(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma})=\frac{1}{(\sqrt {2\pi})^d\prod \sigma_i}\exp \{-\frac{1}{2}\sum\frac{(x_i-\mu_i)^2}{\sigma_i^2}\} \]

最大似然估计

最大似然估计 (Maximum Likelihood Estimation,MLE) 是我们现在已知在某分布 \(\theta\) 下获取了 \(N\) 个样本 \(x_1\sim x_n\),我们要估计最可能的 \(\theta\)

我们反过来对于一个 \(\theta\),定义其似然函数为 \(L(\theta)=\prod p(x_i|\theta)\),用 \(L(\theta)\) 最大的一个 $\theta $ 作为最大似然估计值,记作 \(\theta_{\mathrm{MLE}}\)

为了减少精度误差,我们将 \(L(\theta)\) 取对数进行运算。

当然在可能的 \(\theta\) 很多时我们不能带入每一个进行求解,此时可以结合数学方法(如求导得到极大值)或者一些数值算法进行计算。

例如当 \(\theta = N(x|\mu,\sigma^2)\) 时,我们对 \(\mu,\sigma\) 分别求偏导:

\[\ln L(\mu,\sigma^2)=-\frac{n}{2}\ln {2\pi}-\frac{n}{2}\ln {\sigma^2}-\frac{1}{2\sigma^2}\sum\limits_{i=1}^n(x_i-\mu)^2 \]

\[\frac{\partial \ln L(\mu,\sigma^2)}{\partial \mu}=-\frac{1}{2\sigma^2}\sum(-2x_i+2\mu),\mu=\frac{1}{n}\sum x_i=\overline{x} \]

\[\frac{\partial \ln L(\mu,\sigma^2)}{\partial \sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum(x_i-\overline{x})^2,\sigma^2=\frac{1}{n}\sum(x_i-\overline{x})^2 \]

最大后验概率

在 MLE 中我们没有考虑 \(\theta\) 本身的分布,而最大后验概率(Maximum A Posterior, MAP)则在最大似然的基础上加上了先验分布的影响,即将计算最大的 \(p(X|\theta)\) 变为计算最大的 \(p(X|\theta)p(\theta)\),其余方面没有什么差别。

例如有一枚硬币,在十次投掷中有 \(7\) 次正面朝上,要估计其扔出正面的概率 \(\theta\) ,此时根据常识我们知道这个 \(\theta\) 大概率分布在 \(0.5\) 附近,此时可以选取适当的函数限定 \(\theta\) 的分布,如 Beta 函数 \((Be(x|\alpha,\beta)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)})\),当 \(\alpha=\beta=2\) 时在 \(0.5\) 附近的分布较高。

那么我们即要最大化 \(\theta^8(1-\theta)^4\),根据多元均值不等式可知当 \(\theta=\frac{2}{3}\) 时取到最大值。

3.信息论

自信息

对于某个事件 \(x\),其发生后可以获得的自信息(self-information) \(I(x)=-\log P(x)\)。其满足:

  • 发生概率低的事件的信息量大。
  • 当两个独立事件 \(x,y\) 发生时,获得的信息量是他们两个的和 \(I(xy)=-\log P(xy)=I(x)+I(y)\)

\(I(x)\)\(e\) 为底,单位是 nat。

香农熵

对于某个随机变量 \(X\),其香农熵(Shannon entropy)定义为其自信息的期望,即 \(H(X)=-\sum p_i\log p_i\)

  • 信息熵越大时,该变量可以提供的有用信息越多。当 \(X\) 仅在 \(x_0\) 处取值是 \(1\),即确定性事件时,其信息熵为 \(0\)
  • 当概率分布的越均匀时,信息熵越大。
  • 同时当也代表了给分布 \(P\) 中的事件进行编码所需的最少二进制位数,此时以 \(2\) 为底。

KL-散度,JS-散度

对于某个概率分布 \(P(x)\),我们用另一个概率分布 \(Q(x)\) 去估计 \(P(x)\) 时的损失定义为 KL-散度(KL-divergence)

\[D_{KL}(P||Q)=E_{x\sim P}[\log \frac{P(x)}{Q(x)}]=\sum p_i\log \frac{p_i}{q_i} \]

根据 \(\ln x\leq x-1\)\(D_{KL}(P||Q)=-\sum p_i\log{\frac{q_i}{p_i}}\geq -\sum p_i(\frac{q_i}{p_i}-1)=0\),即 \(D_{KL}(P||Q)\) 非负,当且仅当 \(P=Q\) 时为 \(0\),这也可以看作是某种意义上的距离,KL-散度越大,距离越大。

但是 KL-散度是非对称的,即 \(D_{KL}(P||Q)\neq D_{KL}(Q||P)\)

为了弥补非对称性,有 JS-散度(JS-divergence):

\(JS(P||Q)=\frac{1}{2}(KL(P||\frac{P+Q}{2})+KL(Q||\frac{P+Q}{2}))\)

posted @ 2025-02-23 17:10  Ranural  阅读(32)  评论(0)    收藏  举报