（原创）机器学习之概率与统计（三）- 极大似然估计

目录

一、参数估计... 2

二、极大释然估计... 2

1．似然函数... 2

2．极大似然估计（MLE）... 2

3．log似然函数... 2

4．损失函数... 2

5．求极大似然估计的一般步骤... 2

三、常见分布的参数估计... 3

1．高斯分布... 3

2．Bernoulli分布... 3

3．二项分布（Binomia）... 4

4．多项分布（Multinoull）... 4

四、机器学习模型的参数估计... 5

2．线性回归... 5

2.1线性回归的极大似然估计... 5

3．Logistic回归... 7

3.1 Logistic回归的极大似然估计... 7

4. 朴素贝叶斯(Naive Bayes Classifier, NBC). 9

4.2朴素贝叶斯的极大似然估计... 9

五、估计的评价... 10

1. 估计量的评价标准... 10

2. 偏差-方差分解... 10

3. 监督学习模型的偏差-方差分解... 11

4. 估计的抽样分布... 11

4.1参数Bootstrap. 12

4.2非参数Bootstrap. 12

一、参数估计

　　参数估计，即估计模型的参数：给定模型p(x|Ɵ)和数据D，选择与数据最匹配的参数Ɵ。

　　常用估计模型参数的方法：

　　(1)矩方法，比如一阶矩，二阶矩，…，K阶矩；

　　(2)极大释然估计：频率学派

　　(3)贝叶斯估计：贝叶斯学派

二、极大释然估计

1．似然函数

似然（likelihood，可能性的意思），描述的是事件发生可能性的大小。

似然函数的定义：

设数据D=X₁,…,X_N为独立同分布（IID），其概率密度函数（pdf）为p(x|Ɵ)，则似然函数定义为：

即为在给定数据D的情况下，参数为Ɵ的函数。

2．极大似然估计（MLE）

定义：使得似然函数L(Ɵ)最大的Ɵ的估计：

3．log似然函数

定义：

即：

性质：

（1）它和似然函数在相同的位置取极大值

（2）在不引起混淆的情况下，有时记log似然函数为似然函数

（3）相差常数倍也不影响似然函数取极大值的位置，因此似然函数中的常数项也可以抛弃

（4）在分类中log似然有时亦称为交叉熵(cross-entropy)

4．损失函数

损失函数 = 负log似然函数，即：

损失函数 = - log p( Ɵ|D)

5．求极大似然估计的一般步骤

（1）选择模型

（2）得到密度函数p(x)

（3）求似然函数L = Ʃ log.p(x)

（4）对似然函数求极值（求导），得到参数估计

三、常见分布的参数估计

1．高斯分布

假设X₁,…,X_N ~ N (μ, δ² )，参数为μ, δ²，则高斯分布：

的似然函数为：

其中，

样本均值：

样本方差：

　因为有：

高斯分布的似然函数化简为：

求最大值（求梯度，解方程）：

　　得到极值点（一阶导数为0）：

说明，使用样本的均值和方差作为高斯分布的参数估计，是极大似然的。

2．Bernoulli分布

Bernoulli分布的密度函数为：

其似然函数为：

其中，N₁为试验结果为1的次数，N₂为试验结果为0的次数，

求极大似然有：

即样本实验结果为1的比率，是Bernoulli分布的参数Ɵ的极大释然估计。

3．二项分布（Binomia）

Binomia分布的密度函数为：

其似然函数为：

其极大释然估计和Bernoulli分布一样：

求极大似然有：

即样本实验结果为1的比率，是 Binomia分布的参数Ɵ的极大释然估计。

4．多项分布（Multinoull）

Multinoull分布的密度函数为：

其似然函数为（其中N_K表示N次试验中出现k的次数）：

约束条件为:

采用拉格朗日乘子法求极值：

分别对λ和θ_k求偏导并令其等于0：

即为θ的最大释然参数估计。

四、机器学习模型的参数估计

1. 回归

（1）正态分布可用于回归系统噪声建模

（2）回归是监督学习问题，是输入到输出的映射的学习。

（3）回归问题的模型：

假设残差服从正态分布：

因此，回归问题的模型可以记为：

回归即预测其输出：

2．线性回归

线性回归：输入与输出呈线性关系。

相信回归的模型：

即：

其中W₀是截距，W为权重向量，ε为预测值和真值之间的残差。模型的参数为Ɵ =（W, δ²）

2.1 线性回归的极大似然估计

2.1.1 线性回归的似然函数

线性回归的似然函数为：

其中，RSS表示残差平方和(residual sum of squares)，即残差向量的L2模：

注：平均平方误差(MSE) = RSS/N

2.1.2 负log似然函数求参数估计

极大似然等价为极小负log似然损失(negative log likelihood，NLL)：

只取与w有关的项，得到：

因为有矩阵求导：

所以NLL求导有：

求解得到：

即为W的极大似然估计，把其代入NLL，则有：

求导有：

求解得：

以上便是线性回归参数Ɵ =（W, δ²）的极大似然估计。

2.1.3 计算机求解线性回归的解极大似然估计

1）当样本数目N较小时，可采用OLS结论，用矩阵QR分解分解得到优化解。

2）当样本数目N较大时，可采用随机梯度下降方法优化求解：

<1> 目标函数:

<2> 梯度下降法步骤：

i）给定初值w⁰

ii) 更新w，使得J(W)越来越小

iii) w的各维同时更新:

iv) 直到收敛到某个w值，使得J(W)最小

其中，α称为学习率，控制下降速度的大小。

3．Logistic回归

（1）Logistic回归是线性回归的扩展，用于分类任务（0, 1）

（2）分类目标为二值变量，因此服从Bernoulli分布：

P(y|θ) =

其中y为类别输入（0,1）。

假设输入为x的线性组合，即输入为x的函数 μ(x)，则Bernoulli分布的密度函数可以写为：

P(y|μ(x) ) =

其中：0≤μ(x)≤1

（3）在Logistic回归中，输入的x的函数(概率密度函数)为：

μ(x) = sigm(w^Tx)

其中sigm()为sigmoid函数，或logistic函数：

（4） logistic回归的概率密度函数为：

3.1 Logistic回归的极大似然估计

(1)负log似然函数求参数估计

Logistic回归的似然函数为：

其中，

μ_i = μ(x_i) = sigm(w^Tx)

y_i= 分类标签（0,1）

（1）梯度下降法求解

1）对似然函数进行求导

其中，

以上用到的矩阵求导：

2）得到梯度函数

3）使用梯度进行迭代

即：

其中，

（2）牛顿法求解

1）牛顿法也叫牛顿-拉夫逊（Newton-Raphson）方法，也叫二阶梯度下降法。

2）原理：使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根

3）步骤：

i) 将导数g(w)在w^t处进行Taylor展开:

ii) 由上式得到：

iii) 迭代式为：

4. 朴素贝叶斯(Naive Bayes Classifier, NBC)

4.1定义

假设共有C个类别y∈(1,2,…,C)，每个类别有特征X=(x₁,x₂,…x_D), 则朴素贝叶斯为假设各维特征在给定类别标签的情况下条件独立：

概率密度函数：

其中，π、θ分别为y的先验分布和类条件分布的参数。

4.2朴素贝叶斯的极大似然估计

（1）似然函数为：

其中N_c为y=c的样本数。

（2）如果服从Bernoulli分布

则参数估计：

其中：

（3）如果服从多值分布

则参数估计：

其中：

（4）如果服从正泰分布

则参数估计：

（5）使用朴素贝叶斯进行预测

将给定数据条件D换成参数的MLE插入，得到：

例如Bernoulli分布的预测：

五、估计的评价

1. 估计量的评价标准

一个好的估计具有的性质：

（1）无偏性：估计量的期望等于真值的期望：

即估计的偏差(bias)：

等于0。

（2）相容性

若：

则该估计是相容(consistent)的。

（3）有效性

无偏估计中，方差较小的一个更有效（收敛速度更快）

2. 偏差-方差分解

点估计的性能通过均方误差(MSE, mean squared error)来评价：

可分解为：

其中，

估计的偏差为：

估计的变化程度(精度)为：

（1）如果bias = 0，称其为无偏估计

（2）为了使估计的MSE小，估计的偏差和方差到要小。

3. 监督学习模型的偏差-方差分解

在回归任务中，学习算法f的平方预测误差期望为：

（1）偏差：学习算法的预测的期望与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。

（2）方差：同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响。

（3）噪声：在当前任务上任何学习算法所能达到的期望泛化误差的下界, 即刻画了学习问题本身的难度。

4. 估计的抽样分布

解决的问题：分布的参数真值未知，无法产生真实的模拟数据。

如何解决？：估计的抽样分布

估计的抽样分布：

假设从真实分布：

中进行S次抽样，每次的样本集的大小均为N, 得到数据集合

根据每次抽样得到的数据D(s)，都会得到一个估计：

当S -> ∞ 时，使用估计的参数代替真实的参数，称为估计的抽样分布。

4.1 参数 Bootstrap

Bootstrap（一种重采样技术），用代替，从分布中产生样本。

4.2 非参数Bootstrap

从原始数据中进行N次有放回地采样N个数据，用经验分布近似真正的分布

- tany 2017年10月9日于杭州

人工智能从入门到专家教程资料：https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765

posted @ 2017-10-09 22:04 tanv 阅读(2090) 评论(1) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部