1.从若干实例探讨算法的思考模式
1、逆否命题:

2、朴素贝叶斯:
朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。
最为广泛的两种分类器模型:决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。
和决策树相比,朴素贝叶斯分类器(Naive Bayes Classifier,NBC)发源于古典数学理论,有着坚定的数学基础,以及稳定的分类效率。同时,NBS模型所需估计的参数少,对缺失数据不太敏感,算法也比较简单。理论上,NBS模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际中往往是不成立的,这个NBC模型的正确分类带来了一定影响。
2.1、贝叶斯定理:

- P(喜欢一个人|回微信):回复微信的情况下喜欢一个人的概率
- P(回微信|喜欢一个人):喜欢一个人时会回复微信的概率
- P(喜欢一个人):女/男神喜欢一个人的概率
- P(回微信):女/男神正常情况下回复微信的概率

正向概率:如“假设袋子里面有N个白球,M个黑球,你伸手去摸一把,摸出黑球的概率是多大”。
逆向概率:“如果事先并不知道里面黑球和白球的比例,而是闭着眼睛去摸出一个球(或者好几个球),观察这些取出来的球的颜色,我们可以对袋子里面黑白球的比例作出什么样的推测”。
几个相关概念:
- 先验概率:在考虑观测数据前,能表达不确定量 p 的概率分布
- 后验概率:在考虑和给出相关证据或数据后所得到的条件概率
- 条件概率:事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为 P(A|B)
- 可能性函数/似然函数:一种关于统计模型中参数的函数,用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计

百度百科:

关键词:
- 过拟合:过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
- 定义: 给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。
2.2、决策树:

浙公网安备 33010602011771号