机器学习中常见的概率知识
几个常见概率概念
先验概率:
事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。贝叶斯中的先验概率一般特指P(y)
后验概率:
事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。
P(y|x) 是后验概率,一般是我们求解的目标。
条件概率:
一个事件发生后另一个事件发生的概率。一般的形式为P(x|y)表示y发生的条件下x发生的概率。P(x|y) 是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。
最大似然:
认为使得 $P(x|y)$ 最大的 $y$ ,是当前 $x$ 所属类别,即对所有的 $y$ ,求 $max P(x|y) = \prod_{i=1\cdots N}p(x_i|y) $ 的 $y$
贝叶斯理论:
认为需要增加先验概率 $P(y)$ ,因为有可能某个 $y$ 是很稀有的,即使 $P(x|y)$ 很高,也很可能不是它。
概率分布函数/概率密度函数
概率函数:
就是用函数的形式来表达概率。概率函数一次只能表示一个取值的概率。比如 $P(x=1)=\frac{1}{6}$ ,这代表用概率函数的形式来表示,当随机变量取值为1的概率为1/6,一次只能代表一个随机变量的取值。
概率分布
| a | P(a) |
|---|---|
| 1 | 0.5 |
| 0 | 0.5 |
概率分布函数
概率函数取值的累加结果,又叫累积概率函数
概率密度函数
连续型随机变量的“概率函数”,概率密度函数用数学公式表示就是一个定积分的函数,定积分在数学中是用来求面积的,把概率表示为面积即可
$P(a\leq x \leq b) = F(b) - F(a) = \int _a^bf(x)dx$
其中 $F(x)$ 是概率分布函数, $f(x)$ 是概率密度函数
独立和不相关
不相关事实上是线性独立,可能有其他函数关系,对于二维正态随机变量,不相关就是独立
相关系数
$\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$ 相关系数是标准尺度下的协方差

浙公网安备 33010602011771号