极大似然估计

极大似然估计

极大似然估计依据的假设是如果一个事件的概率最大,那么它就最有可能发生
极大似然估计的通俗理解就是已知样本的结果信息(标签y),反推最大概率导致这一结果的模型参数值(W和b)

似然函数

对于函数\(P(x|\theta)\), 输入有两个:\(x\)表示某一个具体的数据,\(\theta\)表示模型的参数。

  • 如果\(\theta\)是已知的,此函数为概率函数,描述对于不同的样本点\(x\),其出现的概率是多少
  • 如果\(x\)是已知的,此函数则为似然函数,描述对于不同的模型参数,\(x\)这个样本点出现的概率是多少

举个例子,在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是

\[\begin{align*} P(result|model) &=P(x_1,x_2,\cdots,x_{100}|model)\\ &=P(x_1|model)P(x_2|model)\cdots P(x_100|model)\\ &=p^{70}(1-p)^{30}\\ \end{align*} \]

要使这个样本结果最大,对p求导得极值即可

极大似然估计法(Maximum Likelihood Estimate)

\[L(\theta )=L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta )=\prod _{ i=1 }^{ n }{ p({ x }_{ i };\theta ) } \]

假设

\[L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\hat { \theta } )=\underset { \theta \in \Theta }{ max } L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta ) \]

\(\hat{\theta}\)使得\(L(\theta)\)的取值最大,则\(\hat{\theta}\)是参数\(\theta\)的最大似然估计值
在机器学习中,上述的样本\(x\)即为标签y,\(\theta\)则为模型参数\(W\)\(b\)

\[P(y_1,y_2,\cdots,y_n|W,b) =\prod_{i=1}^nP(y_i|\hat{y_i})\\ \]

\(x_i\in {0,1}\),则

\[\prod_{i=1}^n {\hat{y_i}}^{y_i}{(1-\hat{y_i})}^{1-{y_i}}\\ \]

两边取对数

\[\sum_{i=1}^n (y_i\log{\hat y_i}+(1-y_i)\log ({1-\hat y_i})) \]

变为求最小值

\[min-\sum_{i=1}^n (y_i\log{\hat y_i}+(1-y_i)\log ({1-\hat y_i})) \]

这样计算著名的损失函数就出来了

\[\mathcal L(\hat y,y)=-(y\log{\hat y}+(1-y)\log {(1-{\hat y})}) \]

posted @ 2021-10-22 08:34  梦想家肾小球  阅读(76)  评论(0)    收藏  举报