机器学习 - 1 - 数学基础

机器学习 - 1 - 数学基础

本系列博客为本人课程笔记。

统计是已知数据,推模型和参数。

最大似然估计

  1. 似然函数

    \(\theta\) 是概率密度的一个确定性的参数集(分布参数,例如正态分布中的 \(\mu\)\(\sigma\) ), \(P(X^{(N)};θ)\) 是条件概率密度\(P(x^{(N)}|θ)\)
    如果各个\(x_j(j = 1,2,3...N)\)是独立抽取的,则进一步有:

    \[P(x^{(N)}|\theta )=\prod_{j=1}^{N}P(x_j|\theta) \]

  2. 若似然函数可微,求微分方程组的解,或等价求对数似然方程组的解,作为极值的必要条件,求得似然函数的最大值,进一步求得 \(\theta\)

  3. 最大似然估计是将带估计的参数看作是确定的量,但是取值未知,它只考虑某个模型能产生某个给定观察序列的概率,而未考虑该模型本身的概率。(我知道这个序列应该是服从xx分布的)

最大后验概率估计

  1. 贝叶斯公式:

    \[P(B_i|A) = \frac{P(B_i)P(A|B_i)}{\sum_{j=i}^{n}P(B_j)P(A|B_j)} \]

    贝叶斯公式给出了“结果”事件 A 已经发生的条件下,“原因”事件 B 的条件概率,对结果的任何观测都将增加我们对原因事件B的真正分布的知识,即:

    \[后验概率 = \frac{先验概率\times似然函数}{证据因子} \]

    贝叶斯公式就是在描述,你有多大把握能相信一件证据,即原因B

  2. 最大似然估计求参数 \(\theta\) ,使似然函数 \(P(x_0|\theta)\) 最大。最大后验概率估计则是求 \(\theta\) ,使 \(P(\theta)P(x_0|\theta)\) 最大,由于证据因子已经确定,所以此时求得最大的后验概率,即最大化某个原因。

  3. 最大后验估计的融入了要估计量的先验分布在其中,可看做是规则化的最大似然估计。其中加入了模型参数本身的概率分布,并允许我们把先验知识加入到估计模型中。

    本节参考:

posted on 2018-10-05 16:22  ChildishChange  阅读(199)  评论(0编辑  收藏  举报

导航