白话机器学习 - 最大似然

机器学习，从本质上讲，就是一种经验的总结。
例如，“山雨欲来风满楼”，山里面下大雨之前会刮大风，就是一种经验的总结。当然，这也不是100%准确的事情，只是从概率上看，刮风之后下雨的可能性是最大的。
机器学习模型，我们追求的也就是，这个模型看上去是最靠谱的，最接近我们观察到的事实的。换句话说，我们通过观察到的事件，来确定模型，使得这个模型在概率上说，是最有可能的，最符合我们观察到的事件的。

不均匀硬币

现在，有一枚硬币，由于加工不均匀，每次抛硬币时，其正面朝上的概率为 X ，现在，我们怎么才能知道这个X是多少呢？最简单的办法是抛10次硬币，如果6次正面朝上，我们很容易脱口而出，正面朝上的概率是3/5.
为什么我们可以脱口而出，不假思索的说是3/5呢？理由很简单啊，抛10次，6次向上，正面朝上的概率为3/5最合理啊，这种可能性最高啊。
由于是概率，所以，这个估计或多或少都存在一个运气的问题，可能这个硬币朝上的概率只有1/10,但是抛硬币的人特别妖，就是能够10次里面抛出6次正面朝上。

“抛10次硬币，6次正面向上“ 和 ”硬币正面朝上的概率为3/5”
“抛10次硬币，6次正面向上“ 和 ”硬币正面朝上的概率为1/10”

由于抛硬币问题简单，而且上面两个判断相差很大，所以我们很容易就知道前者可能性最大，后者可能性较小。如果问题改成

山雨欲来风满楼
雨后出现彩虹

哪个比较靠谱，这个就非常难了吧。所以，我们还需要一套理论去量化靠谱程度，可能性到底有多高的程度。

猎人

MLE maximum likelihood estimation的最本质的思想就是：发生某事件X，我们非常关心导致这件事情发生的原因或者细节A(A有多种可能性)。但对于A，我们无法溯源去回放事件，去验证到底是哪个。于是我们企图找到某一个A(即估计值Ahat)，使得【基于Ahat，当下我们观察到的现实——X的发生——具有最大的发生的可能性】，这样的想法得到的Ahat就是极大似然估计。一个小故事：有一个业余的猎人新手和一名资深猎人，他们一人一把枪地跑去打猎，砰地一声枪响，一头小鹿应声倒地，这时候问你：更可能的情况是猎人打中了还是新手打中了？在这个故事里，【发生的某事件X】是小鹿被打中，【我们关心的事情A】是谁打中了小鹿，【A的可能的情况】有猎人打中或新手打中，【极大似然估计A】是猎人打中。

作者：Vincent
链接：https://www.zhihu.com/question/24124998/answer/46745176
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

概率分布

在数学上有很多概率分布，这里就不再啰嗦了，可以参看下面的文章
http://blog.csdn.net/sunmenggmail/article/details/17138651

二项分布的典型例子是扔硬币，硬币正面朝上概率为p, 重复扔n次硬币，k次为正面的概率即为一个二项分布概率。

硬币正面向上概率是0.6，抛10次，6次朝上的概率是 0.2508
硬币正面向上概率是0.1，抛10次，6次朝上的概率是 0.0001
（顺便计算一下，硬币正面向上概率是0.1，抛10次，1次朝上的概率是 0.3874）

无论硬币正面向上概率是多少，如果将抛10次里面1次朝上的概率，2次朝上的概率，一直累加到10次朝上的概率，其总和应该为1.

我们看到10次里面6次朝上的结果，硬币正面向上概率为0.6和0.1之间相差上千倍。
”硬币正面向上概率是0.1，抛10次，1次朝上“ 比 ”硬币正面向上概率是0.6，抛10次，6次朝上“ 更加靠谱

概率分布就是为了量化靠谱程度的数学工具。通过这些工具，我们可以计算出一个观察结果（抛10次硬币，6次正面向上）和一个带参数（正面朝上概率）的模型之间，从概率上讲，相似（似然）程度。

posted @ 2017-03-23 11:41 灰毛毛阅读(1082) 评论(0) 收藏举报

刷新页面返回顶部

白话机器学习 - 最大似然

不均匀硬币

猎人

概率分布

公告