极大似然估计

极大似然估计依据的假设是如果一个事件的概率最大，那么它就最有可能发生
极大似然估计的通俗理解就是已知样本的结果信息（标签y），反推最大概率导致这一结果的模型参数值（W和b）

似然函数

对于函数\(P(x|\theta)\), 输入有两个：\(x\)表示某一个具体的数据，\(\theta\)表示模型的参数。

如果\(\theta\)是已知的，此函数为概率函数，描述对于不同的样本点\(x\)，其出现的概率是多少
如果\(x\)是已知的，此函数则为似然函数，描述对于不同的模型参数，\(x\)这个样本点出现的概率是多少

举个例子，在一百次抽样中，七十次是白球的,三十次为黑球事件的概率是

\[\begin{align*} P(result|model) &=P(x_1,x_2,\cdots,x_{100}|model)\\ &=P(x_1|model)P(x_2|model)\cdots P(x_100|model)\\ &=p^{70}(1-p)^{30}\\ \end{align*} \]

要使这个样本结果最大，对p求导得极值即可

极大似然估计法（Maximum Likelihood Estimate)

\[L(\theta )=L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta )=\prod _{ i=1 }^{ n }{ p({ x }_{ i };\theta ) } \]

假设

\[L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\hat { \theta } )=\underset { \theta \in \Theta }{ max } L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta ) \]

有\(\hat{\theta}\)使得\(L(\theta)\)的取值最大，则\(\hat{\theta}\)是参数\(\theta\)的最大似然估计值
在机器学习中，上述的样本\(x\)即为标签y，\(\theta\)则为模型参数\(W\)和\(b\)

\[P(y_1,y_2,\cdots,y_n|W,b) =\prod_{i=1}^nP(y_i|\hat{y_i})\\ \]

若\(x_i\in {0,1}\)，则

\[\prod_{i=1}^n {\hat{y_i}}^{y_i}{(1-\hat{y_i})}^{1-{y_i}}\\ \]

两边取对数

\[\sum_{i=1}^n (y_i\log{\hat y_i}+(1-y_i)\log ({1-\hat y_i})) \]

变为求最小值

\[min-\sum_{i=1}^n (y_i\log{\hat y_i}+(1-y_i)\log ({1-\hat y_i})) \]

这样计算著名的损失函数就出来了

\[\mathcal L(\hat y,y)=-(y\log{\hat y}+(1-y)\log {(1-{\hat y})}) \]

posted @ 2021-10-22 08:34 梦想家肾小球阅读(76) 评论(0) 收藏举报

刷新页面返回顶部

Which is more painful? Efforts or Regrets.

极大似然估计

极大似然估计

似然函数

极大似然估计法（Maximum Likelihood Estimate)

公告