极大似然估计
极大似然估计
极大似然估计依据的假设是如果一个事件的概率最大,那么它就最有可能发生
极大似然估计的通俗理解就是已知样本的结果信息(标签y),反推最大概率导致这一结果的模型参数值(W和b)
似然函数
对于函数\(P(x|\theta)\), 输入有两个:\(x\)表示某一个具体的数据,\(\theta\)表示模型的参数。
- 如果\(\theta\)是已知的,此函数为概率函数,描述对于不同的样本点\(x\),其出现的概率是多少
- 如果\(x\)是已知的,此函数则为似然函数,描述对于不同的模型参数,\(x\)这个样本点出现的概率是多少
举个例子,在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是
\[\begin{align*}
P(result|model)
&=P(x_1,x_2,\cdots,x_{100}|model)\\
&=P(x_1|model)P(x_2|model)\cdots P(x_100|model)\\
&=p^{70}(1-p)^{30}\\
\end{align*}
\]
要使这个样本结果最大,对p求导得极值即可
极大似然估计法(Maximum Likelihood Estimate)
\[L(\theta )=L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta )=\prod _{ i=1 }^{ n }{ p({ x }_{ i };\theta ) }
\]
假设
\[L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\hat { \theta } )=\underset { \theta \in \Theta }{ max } L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta )
\]
有\(\hat{\theta}\)使得\(L(\theta)\)的取值最大,则\(\hat{\theta}\)是参数\(\theta\)的最大似然估计值
在机器学习中,上述的样本\(x\)即为标签y,\(\theta\)则为模型参数\(W\)和\(b\)
\[P(y_1,y_2,\cdots,y_n|W,b)
=\prod_{i=1}^nP(y_i|\hat{y_i})\\
\]
若\(x_i\in {0,1}\),则
\[\prod_{i=1}^n {\hat{y_i}}^{y_i}{(1-\hat{y_i})}^{1-{y_i}}\\
\]
两边取对数
\[\sum_{i=1}^n (y_i\log{\hat y_i}+(1-y_i)\log ({1-\hat y_i}))
\]
变为求最小值
\[min-\sum_{i=1}^n (y_i\log{\hat y_i}+(1-y_i)\log ({1-\hat y_i}))
\]
这样计算著名的损失函数就出来了
\[\mathcal L(\hat y,y)=-(y\log{\hat y}+(1-y)\log {(1-{\hat y})})
\]

浙公网安备 33010602011771号