深度学习的数学基础

线性代数

基本变量：标量、向量、矩阵、张量

基本运算：乘法、加法、逆运算；线性变换的几何意义

范数

特征分解：$A=V*diag(\lambda)*V^{-1}$

奇异值分解：$A=Q*diag(\Sigma)*V$

伪逆：$A^+=V^T*diag(\Sigma^{-1})*Q^T$

迹运算：$tr(A)=\sum_{i}^{ }A_{ii}$；$tr(ABC)=tr(BCA)=tr(CAB)$

主成分分析：线性变换的残差最小化，可用特征分解求得

$$D^*=\arg\min_D\left \| X-DD^TX\right \|_F^2=\arg\max_Dtr(D^TX^TXD)\;s.t.\;D^TD=I_l$$

数值计算

截断与舍入误差：级数截断、上溢与下溢

病态条件：特征值差别过大、矩阵求逆对输入误差很敏感

无约束优化：$\arg\,\min_x f(x)$

梯度下降：$\Delta x=-\epsilon \bigtriangledown f(x)$
共轭梯度：考虑了已搜索的方向，与已搜索的子空间共轭$p_nAp_i=0,i=0,...,n-1$，$p_n$为下一个搜索方向。
牛顿法：利用hessian矩阵求步长，适合凸优化问题。

有约束优化：$\arg\,\min_x f(x)$ s.t. $g(x)\leqslant 0$

广义拉格朗日函数：$L(x,\lambda)=f(x)+\lambda*g(x)$
转换为无约束优化：$\arg\,\min_x \max_{\lambda>=0} f(x,\lambda)$
互补松弛性：$\lambda\bigodot g(x)=0$

概率与信息论

基本概念

随机变量、概率分布、概率密度
联合（多元变量）、条件、边缘概率
独立性与零协方差

贝叶斯网络

链式法则、根据独立性和链式法则，把联合分布分解成条件概率的乘积
每个条件概率对应到一组边，形成一个网络

期望、方差和协方差

矩、中位数、众数

常用概率分布

高斯、二次、多项式、指数和 Laplace、Dirac 和经验分布、混合分布

常用函数

logistic: $\sigma(x)=(1+e^{-x})^{-1}$
softplus: $\zeta(x)=log(1+e^x)$，$\log \sigma(x)=-\zeta(-x)$

统计理论

点估计：$\hat{\theta}_m=g(...,x^{(m)})$。偏差与方差衡量估计量的两个不同误差来源。
一致性：$\lim_{m\to\infty}P(|\hat{\theta}_m-\theta|>\epsilon)=0$
最大似然估计ML：$\theta_{ML}=\arg\max_\theta P_{model}(X;\theta)$
最大后验概率MAP：$\theta_{MAP}=\arg\max_\theta p(x|\theta)=\arg\max_\theta [\log p(\theta|x)+\log p(\theta)]$

信息论

概率分布P的香农熵：$H(X)=E_{X\sim P}[I(X)]=-E_{X\sim P}[\log P(x)]$
条件熵：$H(Y|X) = -\sum_{x,y}P(x,y) \log \frac {P(x,y)} {P(x)}$
联合熵：$H(X,Y) = -\sum_{x,y}P(x,y) \log {P(x,y)} = H(X) + H(Y|X)$
互信息：$I(X;Y)=\sum_{x,y} P(x,y) \log \frac {P(x,y)}{P(x)P(y)}=H(X)-H(X|Y)=H(Y)-H(Y|X)$
KLD散度：$D_{KL}(P||Q)=E_{X\sim P}[\log \frac{P(x)}{Q(x)}]$
交叉熵：$H(P,Q)=E_{X\sim P}[\log Q(x)]=H(P)+D_{KL}(P||Q)$

概率图模型

有向图：静态贝叶斯、动态贝叶斯（隐马尔可夫模型）
无向图：马尔可夫网络（条件随机场、玻尔兹曼机）

机器学习

容量、过拟合与欠拟合、超参数与验证集

有监督与无监督学习

随机梯度下降

参考文献

张帼奋，概率论、数理统计和随机过程，浙江大学出版社，2011
海金，神经网络与机器学习，机械工业出版社，2009-3
Deep learning, www.deeplearning.net
俞栋、邓力，解析深度学习：语言识别实践，电子工业出版社，2016.7

posted @ 2017-11-17 21:13 yunfeng_net 阅读(300) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

yunfeng_net