概率论中的基本定义(事件,期望,信息量,香农熵等)

对于深度学习来说,概率论非常重要,时不时回顾一下的基本定义,理清思路,故做以下笔记,如有不对请指正:

随机试验

随机试验用于描述在相同条件下重复进行、结果具有不确定性的实验或观察过程。

例如:抛硬币,掷骰子,药物疗效试验,测量灯泡寿命均是一个随机试验,

随机试验需要满足以下特征

  • 可重复性:即试验可以在相同的条件下重复执行;
    • 例:抛一枚硬币多次,每次的环境条件(如力度、高度)尽可能一致。
    • 反例:新药的人体试验,每个人的身体条件不一致
  • 结果明确性:试验的所有可能结果事先明确可知,且结果不止一个;
    • 例:抛硬币的结果只能是“正面”或“反面”。
    • 反例:对画作进行1-10分的评分,结果的不确定性源于主观性,而非随机性。故不可称为随机试验;
  • 不确定性:单次试验的结果不可预知,但结果一定是所有可能结果中的一个。
    • 例:抛硬币前无法知道是正面还是反面。
    • 反例:太阳升起的方向,一定是东方,故不存在不确定性

随机试验:指的是一个试验本身,不是某个结果,而是描述的一个过程;

样本空间

随机试验的所有可能结果称之为样本空间,记为 Ω \Omega Ω

例:投掷一个公平硬币,所有可能结果为 { 正面 , 反面 } \{正面,反面\} {正面,反面},即称样本空间,记为: Ω = { 正面 , 反面 } \Omega=\{正面,反面\} Ω={正面,反面};

例:灯泡的寿命,所有的可能结果为正实数,即 Ω = [ 0 , + ∞ ) \Omega=[0, +\infty) Ω=[0,+);

随机变量

随机变量的本质

随机变量是将随机试验的可能结果,映射到实数的函数,注意本质上是映射函数;
实际就是将一个文字描述变成一个数值的描述;

例:投掷一个公平硬币,所有可能结果为 { 正面 , 反面 } \{正面,反面\} {正面,反面},即: Ω = { 正面 , 反面 } \Omega=\{正面,反面\} Ω={正面,反面};定义一个随机变量 X X X(函数),如果使用分段函数的定义方式类似于:
X ( ω ) = { 1 , ω = 正面 0 , ω = 反面 X(\omega) = \begin{cases} 1, & \omega =正面 \\ 0, & \omega= 反面 \\ \end{cases} X(ω)={1,0,ω=正面ω=反面
则一般使用 X = 1 X=1 X=1表示正面,故有:
P ( 正面 ) = P ( X = 1 ) = 0.5 P(正面)=P(X=1)=0.5 P(正面)=P(X=1)=0.5
通俗理解为:

  • 随机变量是不确定的数(概率意义上的未知数),其取值范围是映射函数的值域。
  • 它表示一切不确定的结果,例如:
    • 抛硬币的正反结果(0/1)
    • 骰子的点数(1~6)
    • 电容的寿命(连续值)
    • 任意其他不确定的实验结果

从随机变量到确定值的转换

  • 何时不确定变为确定?
    当事件实际发生时(如硬币落地、骰子停止滚动),随机变量 X X X 的值变为具体的观察值 x x x,称为一次抽样
    • 例如:
      x 1 = Sample ( X ) , x 2 = Sample ( X ) x_1 = \text{Sample}(X), \quad x_2 = \text{Sample}(X) x1=Sample(X),x2=Sample(X)
      表示两次独立抽样结果。

多次实验的建模方式

场景:抛一枚硬币 100 次

方式一:单个随机变量

  • 定义一个随机变量 X X X,表示正面出现的总次数(服从二项分布 X ∼ Binomial ( n = 100 , p = 0.5 ) X \sim \text{Binomial}(n=100, p=0.5) XBinomial(n=100,p=0.5))。
  • 实际结果为确定值 x x x(例如 x = 45 x=45 x=45)。

方式二:多个独立同分布的随机变量

  • 定义 100 个独立同分布的随机变量 X 1 , X 2 , … , X 100 X_1, X_2, \dots, X_{100} X1,X2,,X100,每个 X i X_i Xi 表示第 i i i 次抛硬币的结果(0=反面,1=正面,服从伯努利分布 X i ∼ Bernoulli ( p = 0.5 ) X_i \sim \text{Bernoulli}(p=0.5) XiBernoulli(p=0.5))。
  • 总次数可通过求和得到:
    X = ∑ i = 1 100 X i X = \sum_{i=1}^{100} X_i X=i=1100Xi

多次抽样的表示方法

若执行两次独立的 100 次抛硬币实验,有以下两种表示方式:

方式一:上标索引

  • 第一次实验结果:
    x 1 ( 1 ) , x 2 ( 1 ) , … , x 100 ( 1 ) x_1^{(1)}, x_2^{(1)}, \dots, x_{100}^{(1)} x1(1),x2(1),,x100(1)
  • 第二次实验结果:
    x 1 ( 2 ) , x 2 ( 2 ) , … , x 100 ( 2 ) x_1^{(2)}, x_2^{(2)}, \dots, x_{100}^{(2)} x1(2),x2(2),,x100(2)

方式二:下标索引

  • k k k 次实验的第 i i i 个结果:
    x i , k 其中  i = 1 , 2 , … , 100 ; k = 1 , 2 x_{i,k} \quad \text{其中 } i=1,2,\dots,100; \quad k=1,2 xi,k其中 i=1,2,,100;k=1,2
    例如:

    • 第一次实验: x 1 , 1 , x 2 , 1 , … , x 100 , 1 x_{1,1}, x_{2,1}, \dots, x_{100,1} x1,1,x2,1,,x100,1
    • 第二次实验: x 1 , 2 , x 2 , 2 , … , x 100 , 2 x_{1,2}, x_{2,2}, \dots, x_{100,2} x1,2,x2,2,,x100,2
  • 方式三:表格形式

    实验编号第1次第2次第100次
    第1组 x 1 , 1 x_{1,1} x1,1 x 2 , 1 x_{2,1} x2,1 x 100 , 1 x_{100,1} x100,1
    第2组 x 1 , 2 x_{1,2} x1,2 x 2 , 2 x_{2,2} x2,2 x 100 , 2 x_{100,2} x100,2
  • 方式四:矩阵形式
    [ x 1 , 1 x 2 , 1 ⋯ x 100 , 1 x 1 , 2 x 2 , 2 ⋯ x 100 , 2 ] \begin{bmatrix} x_{1,1} & x_{2,1} & \cdots & x_{100,1} \\ x_{1,2} & x_{2,2} & \cdots & x_{100,2} \end{bmatrix} [x1,1x1,2x2,1x2,2x100,1x100,2]

事件

样本空间的子集,表示某些结果的组合。

例1:投掷一个公平硬币, Ω = { H , T } \Omega=\{H,T\} Ω={H,T}

  • 事件A:“出现正面”。记为: A = { H } A=\{H\} A={H}
  • 事件B:至少出现一次正面(若试验为连续抛多次);记为: B = { 所有包含 H 的序列 } B=\{所有包含H的序列\} B={所有包含H的序列}

例2:从一批灯泡中随机抽取一只,测试其寿命。

  • 事件 A:寿命大于 1000 小时,记为 A = { t ∣ t > 1000 } A=\{t∣t>1000\} A={tt>1000}
  • 可使用随机变量来描述事件

例1:投掷一个公平硬币,出现正面可以写为 X = 1 X=1 X=1,出现反面可以写为: X = 0 X=0 X=0;(随机变量X定义为1表示正面,0表示反面)
例2:从一批灯泡中随机抽取一只,测试其寿命,大于1000小时,写为: X > 1000 X>1000 X>1000;(随机变量X定义为寿命小时数)
例3:抛出一个6面均匀骰子,点数大于2的事件,可写为: X > 2 X>2 X>2; 点数等于2,4,6的事件: X ∈ { 2 , 4 , 6 } X\in\{2,4,6\} X{2,4,6}

可见,随机变量的主要作用是将自然语言描述的事件,转变为数学语言的描述的工具;

  • 对于单个试验,事件可以有无数种定义;例如投掷一个公平6面骰子,可以定义事件A-F是得到1-6点,显然定义随机变量如下最合适
    X ( ω ) = { 1 , ω = 1 点 2 , ω = 2 点 ⋯ 6 , ω = 6 点 X(\omega) = \begin{cases} 1, & \omega =1点\\ 2, & \omega= 2点\\ \cdots\\ 6, & \omega= 6点 \end{cases} X(ω)= 1,2,6,ω=1ω=2ω=6
  • 注意随机变量是用来表达所有可能结果为数学语言的工具,而不是表达所定义的所有事件的;
    例如上例还可以继续定义事件G是大于4点,事件H是小于5点;那么这两个事件不是用来定义随机变量,而是使用随机变量来描述事件;
  • 定义随机变量时,实际是需要找到所有互斥的事件,并且所有的互斥事件的并集为样本空间;需要满足总概率为1的基本性质
  • 对于上例如果我只关注小于4点和大于3点两种事件;我也可以定义随机变量为:
    X ( ω ) = { 1 , ω = 1 , 2 , 3 点 2 , ω = 4 , 5 , 6 点 X(\omega) = \begin{cases} 1, & \omega =1,2,3点\\ 2, & \omega=4,5,6点\\ \end{cases} X(ω)={1,2,ω=1,2,3ω=4,5,6
    此时的概率 P ( X = 1 ) = 0.5 ; P ( X = 2 ) = 0.5 P(X=1)=0.5;P(X=2)=0.5 P(X=1)=0.5;P(X=2)=0.5
  • 注意定义时不可遗漏所有可能的结果

注意,随机变量是描述事件的工具,不是使用事件定义随机变量,随机变量只和样本空间有关

样本空间与事件的定义关系

1. 样本空间的唯一性

  • 定义:样本空间(Sample Space)是随机试验所有可能结果的集合,由试验本身的性质决定。
  • 示例
    • 抛硬币: Ω = { 正面 , 反面 } \Omega = \{\text{正面}, \text{反面}\} Ω={正面,反面}
    • 掷骰子: Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega = \{1,2,3,4,5,6\} Ω={1,2,3,4,5,6}
    • 观察温度: Ω = { x ∈ R ∣ x > − 273.15 } \Omega = \{x \in \mathbb{R} \mid x > -273.15\} Ω={xRx>273.15}
  • 关键点:样本空间是试验结果的客观存在,不会因研究目的改变。

2. 事件的多样性与人为定义

  • 定义:事件(Event)是样本空间的子集,表示我们感兴趣的某些结果。
  • 特点
    • 灵活性:事件可以根据研究需求灵活定义。
    • 数量:理论上可定义 2 ∣ Ω ∣ 2^{|\Omega|} 2∣Ω∣ 个事件(若样本空间有限)。
  • 示例:掷骰子时,样本空间 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega = \{1,2,3,4,5,6\} Ω={1,2,3,4,5,6},可定义以下事件:
    • 事件A:偶数点( { 2 , 4 , 6 } \{2,4,6\} {2,4,6}
    • 事件B:大于3的点( { 4 , 5 , 6 } \{4,5,6\} {4,5,6}
    • 事件C:1点或6点( { 1 , 6 } \{1,6\} {1,6}
    • 事件D:质数点( { 2 , 3 , 5 } \{2,3,5\} {2,3,5}

3. 样本空间与事件的关系

  • 样本空间是事件的“舞台”
    • 所有事件必须基于样本空间定义,不能超出其范围。
    • 例如:掷骰子时无法定义“掷出7点”这样的事件。
  • 事件的互斥与互补
    • 互斥事件:无交集(如 { 1 , 2 } \{1,2\} {1,2} { 3 , 4 } \{3,4\} {3,4})。
    • 对立事件:互斥且并集为样本空间(如 { 1 , 2 , 3 } \{1,2,3\} {1,2,3} { 4 , 5 , 6 } \{4,5,6\} {4,5,6})。

4. 总结

  • 样本空间是唯一的:由试验本身决定,包含所有可能结果。
  • 事件是灵活的:可根据研究需求定义任意数量的事件,但必须基于样本空间。
  • 研究目的驱动事件定义:不同的问题需要关注不同的结果组合。

概率

概率(probability),用 P P P表示,是度量事件发生可能性大小的数值

概率的计算方式

  • 古典概率
    适用于有限且等可能的基本事件的场景,通过理论计算直接得出概率。概率使用 P ( A ) P(A) P(A)表示;

  • 频率概率
    通过大量随机试验,可以得到逼近真实概率的结果,且试验次数越多,越接近真实概率;

    • n n n次试验中, A A A事件发生的频数记为 n A n_A nA
    • A A A事件出现;的频率为: n A / n n_A/n nA/n,记为: f n ( A ) f_n(A) fn(A)
    • 对于对于独立重复试验,在一定条件下的A事件的频率等于概率: lim ⁡ n → ∞ f n ( A ) = P ( A ) \lim_{n \to \infty}f_n(A)=P(A) nlimfn(A)=P(A)

概率公理:

  1. 非负性:对于每个事件: P ( A ) ≥ 0 P(A)\ge 0 P(A)0
  2. 规范性:对于必然事件: P ( S ) = 1 P(S) = 1 P(S)=1
  3. 可列可加性:对于两两不相容的事件(互斥事件,即不可能同时发生),对于 A 1 , A 2 , … , 且 A i A j = ∅ , i ≠ j , i = 1 , 2 , 3 , … A_1,A_2,\dots,且A_iA_j = \varnothing,i\ne j,i=1,2,3,\dots A1,A2,,AiAj=,i=j,i=1,2,3, P ( A 1 ∪ A 2 ∪ ⋯   ) = P ( A 1 ) + P ( A 2 ) + ⋯ P(A_1\cup A_2 \cup \cdots)=P(A_1)+P(A_2)+\cdots P(A1A2)=P(A1)+P(A2)+

可列可加性数学表达也可以写作:(看看得了,一个意思表达):
P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) P(\bigcup_{i=1}^\infty A_i)=\sum_{i=1}^\infty{P(A_i)} P(i=1Ai)=i=1P(Ai)

实际就是概率必须在0-1之间,然后不相容的事件概率之和等于出现之中任意一个事件的概率发生的概率;

期望

期望是随机变量所有可能结果的加权平均,权重为对应概率。

注意,是随机变量的所有可能结果,不是所有事件的可能结果,换句话说,期望是和事件无关的;
注意,期望与试验次数,试验样本结果均无关,反应的是理论上的随机变量均值,也可以认为是无穷次试验的结果均值;

  • 若随机变量 X X X 的可能取值为 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,对应概率为 p ( x 1 ) , p ( x 2 ) , … , p ( x n ) p(x_1), p(x_2), \dots, p(x_n) p(x1),p(x2),,p(xn),则期望为:
    E [ X ] = ∑ i = 1 n x i p ( x i ) \mathbb{E}[X] = \sum_{i=1}^{n} x_i p(x_i) E[X]=i=1nxip(xi)
    对于连续型随机变量:
    E [ X ] = ∫ − ∞ ∞ x f ( x ) d x \mathbb{E}[X] = \int_{-\infty}^\infty xf(x) dx E[X]=xf(x)dx

  • 若对随机变量 X X X 做一个函数变换 g ( X ) g(X) g(X),那么他的期望会同步变化为 E [ g ( X ) ] \mathbb{E}[g(X)] E[g(X)],即:
    E [ g ( X ) ] = ∑ i = 1 n g ( x i ) p ( x i ) \mathbb{E}[g(X)] = \sum_{i=1}^{n} g(x_i) p(x_i) E[g(X)]=i=1ng(xi)p(xi)
    :
    E [ X 2 − 10 ] = ∑ i = 1 n ( x i 2 − 10 ) p ( x i ) \mathbb{E}[X^2 - 10] = \sum_{i=1}^{n} (x_i^2 - 10) p(x_i) E[X210]=i=1n(xi210)p(xi)

    附:常数的期望等于其本身


方差

样本方差

  • 我们中学都学过,对于一组数据 x 1 , x 2 , x 3 , … , x n x_1, x_2, x_3, \dots, x_n x1,x2,x3,,xn,需要知道他的离散程度,求他的方差/标准差即可;总体方差公式如下:
    σ 2 = ( x 1 − x ˉ ) 2 + ( x 2 − x ˉ ) 2 + ⋯ + ( x n − x ˉ ) 2 n \sigma^2 = \frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x})^2}{n} σ2=n(x1xˉ)2+(x2xˉ)2++(xnxˉ)2
    或表达为(样本方差),如果我们像总体方差一样用 n 做分母,得到的估计会系统性地偏低,使用 n − 1 n−1 n1 可以修正这个偏差,使得样本方差更接近真实的总体方差,这就是所谓的无偏估计:
    s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n11i=1n(xixˉ)2

  • 对于以上的例子, x 1 , x 2 , x 3 , … , x n x_1, x_2, x_3, \dots, x_n x1,x2,x3,,xn 可以认为是 n n n 次试验的试验结果,即试验样本,得到的方差即样本方差;

随机变量方差

  • 如果我需要衡量一个随机变量,即所有可能出现的结果的离散程度;定义为随机变量方差(离散型)写为 Var ( X ) \text{Var}(X) Var(X)

  • 显然可见,是当采样次数 k → ∞ k \to \infty k 时, σ 2 \sigma^2 σ2 的值;即执行无限次采样的结果的方差;

  • 由于采样到不同结果的概率不同,当执行无数次采样时,每一个随机变量被采样的可能性,就是概率;概率乘以总采样次数即某个变量的频数,显然为: n A = k ⋅ p ( x i ) n_A = k \cdot p(x_i) nA=kp(xi)

  • 若随机变量 X X X 的可能取值为 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,对应概率为 p ( x 1 ) , p ( x 2 ) , … , p ( x n ) p(x_1), p(x_2), \dots, p(x_n) p(x1),p(x2),,p(xn);则当采样 k k k 次后:若 k → ∞ k \to \infty k;则 x 1 x_1 x1 出现了 k ⋅ p ( x 1 ) k \cdot p(x_1) kp(x1) 次; 那么套用样本方差的公式,随机变量方差就可以写为:
    Var ( X ) = 1 k [ k ⋅ p ( x 1 ) ( x 1 − x ˉ ) 2 + k ⋅ p ( x 2 ) ( x 2 − x ˉ ) 2 + ⋯ + k ⋅ p ( x n ) ( x n − x ˉ ) 2 ] = p ( x 1 ) ( x 1 − x ˉ ) 2 + p ( x 2 ) ( x 2 − x ˉ ) 2 + ⋯ + p ( x n ) ( x n − x ˉ ) 2 \begin{align*} \text{Var}(X) &= \frac{1}{k} \left[ k \cdot p(x_1)(x_1 - \bar{x})^2 + k \cdot p(x_2)(x_2 - \bar{x})^2 + \cdots + k \cdot p(x_n)(x_n - \bar{x})^2 \right] \\ &= p(x_1)(x_1 - \bar{x})^2 + p(x_2)(x_2 - \bar{x})^2 + \cdots + p(x_n)(x_n - \bar{x})^2 \end{align*} Var(X)=k1[kp(x1)(x1xˉ)2+kp(x2)(x2xˉ)2++kp(xn)(xnxˉ)2]=p(x1)(x1xˉ)2+p(x2)(x2xˉ)2++p(xn)(xnxˉ)2
    其中均值的其实就是期望:
    x ˉ = 1 k [ k ⋅ x 1 p ( x 1 ) + k ⋅ x 1 p ( x 1 ) + ⋯ + k ⋅ x 1 p ( x n ) ] = ∑ i = 1 n x i p ( x i ) = E [ X ] \begin{align*} \bar{x} &= \frac{1}{k} \left[ k \cdot x_1 p(x_1) + k \cdot x_1 p(x_1) + \cdots + k \cdot x_1 p(x_n) \right] \\ &= \sum_{i=1}^{n} x_i p(x_i) \\ &= \mathbb{E}[X] \end{align*} xˉ=k1[kx1p(x1)+kx1p(x1)++kx1p(xn)]=i=1nxip(xi)=E[X]
    所以
    Var ( X ) = p ( x 1 ) [ x 1 − E [ X ] ] 2 + p ( x 2 ) [ x 2 − E [ X ] ] 2 + ⋯ + p ( x n ) [ x n − E [ X ] ] 2 = ∑ i = 1 n p ( x i ) [ x i − E [ X ] ] 2 = E [ ( X − E [ X ] ) 2 ] \begin{align} \text{Var}(X) &= p(x_1)[x_1 - \mathbb{E}[X]]^2 + p(x_2)[x_2 - \mathbb{E}[X]]^2 + \cdots + p(x_n)[x_n - \mathbb{E}[X]]^2 \\ &= \sum_{i=1}^{n} p(x_i)[x_i - \mathbb{E}[X]]^2 \\ &= \mathbb{E}[(X - \mathbb{E}[X])^2] \end{align} Var(X)=p(x1)[x1E[X]]2+p(x2)[x2E[X]]2++p(xn)[xnE[X]]2=i=1np(xi)[xiE[X]]2=E[(XE[X])2]

    ( 2 ) → ( 3 ) 请参考 : E [ g ( X ) ] = ∑ i = 1 n g ( x i ) p ( x i ) (2)\to(3) 请参考: \mathbb{E}[g(X)] = \sum_{i=1}^{n} g(x_i) p(x_i) (2)(3)请参考:E[g(X)]=i=1ng(xi)p(xi)

  • 其中式 (2)(3) 就是方差的 2 种形式,以下推导另一种形式:

    令式 ( 2 ) (2) (2) E [ X ] → μ \mathbb{E}[X] \to \mu E[X]μ. 则
    Var ( X ) = E [ ( X − μ ) 2 ] = E [ X 2 − 2 μ X − μ 2 ] = E [ X 2 ] − 2 μ E [ X ] − E [ μ 2 ] 又 E [ X ] = μ ; μ 2 为常数 = E [ X 2 ] − 2 μ 2 − μ 2 = E [ X 2 ] − μ 2 = E [ X 2 ] − ( E [ X ] ) 2 \begin{align*} \text{Var}(X) &= \mathbb{E}[(X - \mu)^2] \\ &= \mathbb{E}[X^2 - 2\mu X - \mu^2] \\ &= \mathbb{E}[X^2] - 2\mu \mathbb{E}[X] - \mathbb{E}[\mu^2] \\ 又 \mathbb{E}[X] = \mu; \mu^2 为常数 \\ &= \mathbb{E}[X^2] - 2\mu^2 - \mu^2 \\ &= \mathbb{E}[X^2] - \mu^2 \\ &= \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \end{align*} Var(X)E[X]=μ;μ2为常数=E[(Xμ)2]=E[X22μXμ2]=E[X2]2μE[X]E[μ2]=E[X2]2μ2μ2=E[X2]μ2=E[X2](E[X])2

场景公式
期望形式 Var ( X ) = E [ ( X − μ ) 2 ] \text{Var}(X) = \mathbb{E}[(X - \mu)^2] Var(X)=E[(Xμ)2]
推导形式 Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 \text{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 Var(X)=E[X2](E[X])2
离散型随机变量 Var ( X ) = ∑ i = 1 n p ( x i ) ( x i − μ ) 2 \text{Var}(X) = \sum_{i=1}^{n} p(x_i)(x_i - \mu)^2 Var(X)=i=1np(xi)(xiμ)2
连续型随机变量 Var ( X ) = ∫ − ∞ ∞ ( x − μ ) 2 f ( x ) d x \text{Var}(X) = \int_{-\infty}^{\infty} (x - \mu)^2 f(x) dx Var(X)=(xμ)2f(x)dx
样本方差 s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n11i=1n(xixˉ)2

方差的记法以下是等价的,只是不同的习惯
Var(X)=D(X) \text{Var(X)=D(X)} Var(X)=D(X)

示例

以上的所有概念,使用一个示例来说明;有一个不均匀6面体,写着不同的6个字分别是"扬,州,农,商,银,行"(手边正好有写着这个的茶杯…);有以下描述:

  • 随机试验: 投掷这个骰子就是随机试验
  • 样本: 每投掷一次得到的结果就是一个试验样本
  • 样本空间: 投掷骰子所有有可能的结果,即 Ω = { 扬 , 州 , 农 , 商 , 银 , 行 } \Omega=\{扬,州,农,商,银,行\} Ω={,,,,,}
  • 随机变量: 很显然,样本空间的中文表示并不助于我们研究数学问题,所以使用实数映射6个结果,即随机变量 X X X,实际映射可以为: X ( ω ) = { 1 , ω = 扬 2 , ω = 州 ⋯ 6 , ω = 行 X(\omega) = \begin{cases} 1, & \omega =扬\\ 2, & \omega= 州\\ \cdots\\ 6, & \omega= 行\\ \end{cases} X(ω)= 1,2,6,ω=ω=ω=
  • 事件: 我可以定义以下事件,取决于我要研究的实际问题,下面是几个示例:
    • 事件 A 事件A 事件A:投出1次,出现的值恰好是"银"
    • 事件 B 事件B 事件B:投出2次六面体,出来的值正好是"扬州"
    • 事件 C 事件C 事件C:投出6次六面体,至少包含一次"农"
    • 事件 D 事件D 事件D:投掷10次,出来的值均为"行"
  • 随机变量表达事件,可见随机变量的作用
    • A = { X = 5 } A=\{X=5\} A={X=5}
    • B = { X 1 = 1 } ∩ { X 2 = 2 } B=\{X_1=1\}\cap \{X_2=2\} B={X1=1}{X2=2}
    • C = ⋃ j = 1 6 { X j = 3 } C=\bigcup_{j=1}^{6}\{X_j=3\} C=j=16{Xj=3}
    • D = ⋂ j = 1 10 { X j = 6 } D=\bigcap_{j=1}^{10}\{X_j=6\} D=j=110{Xj=6}
  • 概率:由于不均匀,所以落到每一个面的可能性不同;故无法使用古典概率计算,我需要解决上述的4个事件,我可以有以下2个方法,均基于频率概率:
    1. 抛出尽量多次,看落到每一个面的频率是多少,估计出每个面的概率,然后计算得到上述4个事件的概率; 即估计每个面的基本概率,再计算复合事件概率
    2. :直接针对上述的事件进行试验,例如事件D,我可以连续测试10000次事件D,即执行了10000x10的实际动作,看看出现多少次,出来的值均为"行",然后除以10000即可;得到一个估计的概率;直接试验得到复合事件*概率*
    • 假设方案1经过 1 0 8 10^8 108次投掷,得到了以下频率概率
      p k ​ = [ 0.1 , 0.15 , 0.2 , 0.25 , 0.15 , 0.15 ] , k = 1 , 2 , 3 , 4 , 5 , 6 p_k​=[0.1, 0.15, 0.2, 0.25, 0.15, 0.15],k=1,2,3,4,5,6 pk=[0.1,0.15,0.2,0.25,0.15,0.15],k=1,2,3,4,5,6
      或者写作随机变量形式:
      P ( X = k ) = [ 0.1 , 0.15 , 0.2 , 0.25 , 0.15 , 0.15 ] , k = 1 , 2 , 3 , 4 , 5 , 6 P(X=k)=[0.1, 0.15, 0.2, 0.25, 0.15, 0.15],k=1,2,3,4,5,6 P(X=k)=[0.1,0.15,0.2,0.25,0.15,0.15],k=1,2,3,4,5,6
  • 采样测试:若我只投掷10次,得到的值分别为: [ 1 , 2 , 3 , 3 , 6 , 4 , 4 , 1 , 4 , 5 ] [1,2,3,3,6,4,4,1,4,5] [1,2,3,3,6,4,4,1,4,5],显然可求得均值为:
    x ˉ = 1 + 2 + 3 + ⋯ + 5 10 = 3.3 \bar{x}=\frac{1+2+3+\cdots+5}{10}=3.3 xˉ=101+2+3++5=3.3
    样本方差为:
    s 2 = ( 1 − 3.3 ) 2 + ( 2 − 3.3 ) 2 + ⋯ + ( 5 − 3.3 ) 2 9 ≈ 2.567 s^2=\frac{(1-3.3)^2+(2-3.3)^2+\cdots+(5-3.3)^2}{9}\approx 2.567 s2=9(13.3)2+(23.3)2++(53.3)22.567
  • 期望:对于以上的采样测试来看,10次的均值明显不能代表投掷无数次的均值是多少,也就是长期来看,整体的均值是多少;此时我们可以用期望来计算;
    E [ X ] = ∑ i = 1 n x i p ( x i ) = 1 × 0.1 + 2 × 0.15 + ⋯ + 6 × 0.15 = 3.65 \begin{align*} \mathbb{E}[X] &= \sum_{i=1}^{n} x_i p(x_i)\\ &=1 \times 0.1 + 2 \times 0.15 + \dots+6\times0.15\\ &=3.65 \end{align*} E[X]=i=1nxip(xi)=1×0.1+2×0.15++6×0.15=3.65
    或者我们可以回顾上面的推导:设总共采样 k k k次 ,当 k → ∞ k \to \infty k 时: E [ X ] = x ˉ \mathbb{E}[X] =\bar{x} E[X]=xˉ
  • 方差(离散型随机变量方差):使用2个公式计算
    Var ( X ) = ∑ i = 1 n p ( x i ) ( x i − μ ) 2 = 0.1 × ( 1 − 3.65 ) 2 + 0.15 × ( 2 − 3.65 ) 2 + ⋯ + 0.15 × ( 6 − 3.65 ) 2 = 2.3275 Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = ( 1 × 0.1 + 2 2 × 0.15 + ⋯ + 6 2 × 0.15 ) − 3.6 5 2 = 15.65 − 13.3225 = 2.3275 \begin{align*} \text{Var}(X) &= \sum_{i=1}^{n} p(x_i)(x_i - \mu)^2\\ &=0.1 \times (1-3.65)^2+0.15\times(2-3.65)^2+\cdots + 0.15\times(6-3.65)^2\\ &=2.3275\\ \text{Var}(X) &=\mathbb{E}[X^2] - (\mathbb{E}[X])^2\\ &=(1 \times 0.1 + 2^2 \times 0.15 + \dots+6^2\times0.15) - 3.65^2\\ &=15.65-13.3225\\ &=2.3275\\ \end{align*} Var(X)Var(X)=i=1np(xi)(xiμ)2=0.1×(13.65)2+0.15×(23.65)2++0.15×(63.65)2=2.3275=E[X2](E[X])2=(1×0.1+22×0.15++62×0.15)3.652=15.6513.3225=2.3275

分布

分布是对随机变量的概率的描述;

分布是对所有可能事件及其对应概率的系统性描述;分布描述随机变量取值的概率规律,反映事件发生的概率如何分配到不同结果上。

即我想描述一个随机变量,我希望描述他的均值,可以用期望,希望描述他的离散程度,可以用方差,但是这两种方法都无法准确的描述整体的随机变量的概率情况;

就像我需要描述一组数据 [ 0.1 , 0.15 , 0.2 , 0.25 , 0.15 , 0.15 ] [0.1, 0.15, 0.2, 0.25, 0.15, 0.15] [0.1,0.15,0.2,0.25,0.15,0.15],可以使用样本方差,均值来描述,但都是整体数据的一个特征值,如果是想完整的描述,需要完整的把这串数据写下来一样;如果一组数据是有规律的,那么使用函数表达会更简洁;
例如: [ 1 , 2 , 3 , 4 , 5 ] [1,2,3,4,5] [1,2,3,4,5]我可以使用函数表达为 f ( x ) = x , 其中 x ∈ N + 且 x ≤ 5 f(x)=x,其中x\in \mathbb N^+ 且 x\le 5 f(x)=x,其中xN+x5

概率质量函数(PMF)

对于离散型随机变量来说,由于可能取值是有限的,显然我可以写出每一个随机变量以及对应的概率表达分布,例如以下一个规律的概率分布(比如一个不均匀的6面骰子,投出每点的概率),显然可以有以下的方式表达:

  • 表格形式
k k k123456
P ( X = k ) P(X=k) P(X=k) 1 21 \frac{1}{21} 211 2 21 \frac{2}{21} 212 3 21 \frac{3}{21} 213 4 21 \frac{4}{21} 214 5 21 \frac{5}{21} 215 6 21 \frac{6}{21} 216
  • 分段函数形式
    P ( X = k ) = { 1 21 , k = 1 2 21 , k = 2 3 21 , k = 3 4 21 , k = 4 5 21 , k = 5 6 21 , k = 6 P(X = k) = \begin{cases} \frac{1}{21}, & k = 1 \\ \frac{2}{21}, & k = 2 \\ \frac{3}{21}, & k = 3 \\ \frac{4}{21}, & k = 4 \\ \frac{5}{21}, & k = 5 \\ \frac{6}{21}, & k = 6 \\ \end{cases} P(X=k)= 211,212,213,214,215,216,k=1k=2k=3k=4k=5k=6
  • 公式表达
    P ( X = k ) = k 21 , k = 1 , 2 , 3 , 4 , 5 , 6 P(X=k)=\frac{k}{21},k=1,2,3,4,5,6 P(X=k)=21k,k=1,2,3,4,5,6

对于以上分段函数或公式表达都可以称为该离散型随机变量的概率质量函数(Probability Mass Function, PMF
P ( X = x ) = f ( x ) P(X=x)=f(x) P(X=x)=f(x)

概率密度函数(PDF)

对于连续型随机变量,显然无法一一列举出所有的取值可能,以及对应的概率;列表法不可用了;

但是描述连续的数值,正是函数发挥的时候,我们可以用一个函数来描述一组连续的数据,例如 f ( x ) = x 2 , x ∈ R f(x)=x^2,x \in R f(x)=x2,xR;当然也可以使用函数 f f f来描述 X X X的取值 k k k和概率 P P P的关系;即 f ( k ) = P ( X = k ) f(k)=P(X=k) f(k)=P(X=k),此时的函数 f f f就应为概率密度函数;但是仔细一思考,这样去定义明显是错误的

举例,假设某辆公交车每15分钟一班,乘客到达站台的时间是随机的,那么乘客需要等待的时间 X X X是一个连续型随机变量。它的取值范围是 [ 0 , 15 ) [0,15) [0,15) 分钟,假设司机非常准时,总是在14-15分左右到达;那么可能存在 f ( 14 ) = P ( X = 14 ) ≈ 0.9 f(14)=P(X=14) \approx 0.9 f(14)=P(X=14)0.9 f ( 15 ) = P ( X = 15 ) ≈ 0.9 f(15)=P(X=15) \approx 0.9 f(15)=P(X=15)0.9;这样很明显概率之和超越1了;

由于连续型随机的变量的取值是连续实数,区间内存在无穷多个取值,若任意点的概率不为0,则概率之和也是无穷,显然不满足概率为1的公理;数学表达
∑ k = 0 15 P ( X = k ) = ∞ \sum_{k=0}^{15} P(X=k)=\infty k=015P(X=k)=

要表达连续型随机变量的可能性很高,必须描述为某个区间内的概率,且在任意一个点(某一取值)的概率为0

  • 错误表述
    公交车在14分时到达的概率很高 → \to 错误:任意一点的概率为0,即 P ( X = 15 ) = 0 P(X=15)=0 P(X=15)=0
  • 正确表述
    公交车在14-15分到达的概率很高 → \to 正确: P ( 14 ≤ X < 15 ) = 0.9 P(14\le X<15)=0.9 P(14X<15)=0.9

随机变量的由于概率之和为1,所以我们定义一个函数 f ( x ) f(x) f(x),使在它定义域内的积分为1;则可以使定义域内任意子集的定积分表达为概率; 此函数称为概率密度函数(PDF);注意,概率密度函数 f ( x ) f(x) f(x)直接传入自变量 x x x求值得到的不是概率,而是概率密度,需要求概率,必须对某一区间 f ( x ) f(x) f(x)求其定积分;即:
P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a\le X \le b)=\int_a^bf(x)dx P(aXb)=abf(x)dx

注意注意

  • 对于PMF来说,直接代入随机变量的取值,就可以得到对应的概率;
  • 对于PDF来说,函数本身代入值的话;得到的值实际是那个点的概率密度,而非概率

示例:若随机变量 X X X的取值范围是在区间 [ 0 , 2 ] [0,2] [0,2]上,PDF函数为 f ( x ) f(x) f(x);则 ∫ 0 2 f ( x ) d x = P ( 0 ≤ X ≤ 2 ) = 1 \int_0^2f(x)dx=P(0\le X \le 2)=1 02f(x)dx=P(0X2)=1;若 f ( 1 ) = 0.5 f(1)=0.5 f(1)=0.5不代表 P ( X = 1 ) = 0.5 P(X=1)=0.5 P(X=1)=0.5;

特殊的,如果是均匀分布,则 f ( 1 ) = 0.5 f(1)=0.5 f(1)=0.5表示在 x = 1 x=1 x=1附近单位长度的概率为 0.5 0.5 0.5,或写为 ∫ 0.5 1.5 f ( x ) d x = P ( 0.5 ≤ X ≤ 1.5 ) = 0.5 \int_{0.5}^{1.5}f(x)dx=P(0.5\le X \le 1.5)=0.5 0.51.5f(x)dx=P(0.5X1.5)=0.5;。

累积分布函数(CDF)

首先分布函数(Distribution Function)通常是指累积分布函数(Cumulative Distribution Function, CDF)。
其次,不要错误的认识:对于随机变量来说如果不是离散型的,就一定是连续型的,还存在其他;
我们需要找到一种方法可描述所有类型的随机变量分布,故有CDF;
由于随机变量可以定义在整个实数集 R \mathbb R R上,那我们定义自变量 x , x ∈ R x,x\in\mathbb R x,xR,值为从 ( − ∞ , x ] (-\infty,x] (,x]的所有概率之和;也就是累积的含义,此函数就是累积分布函数CDF,一般使用 F ( x ) F(x) F(x)表示;
由于:
P ( x 1 < X ≤ x 2 ) = P ( X ≤ x 1 ) − P ( X ≤ x 2 ) P(x1<X\le x_2)=P(X\le x_1)-P(X \le x_2) P(x1<Xx2)=P(Xx1)P(Xx2)
即我想描述任意区间上的概率,可以使用分别 P ( X ≤ x 1 ) P(X\le x_1) P(Xx1) P ( X ≤ x 2 ) P(X \le x_2) P(Xx2)就可以了;
故CDF定义为以下,表示:将分布中小于目标值 x x x的概率的定义为 F ( x ) F(x) F(x):
F ( x ) = P ( X ≤ x ) , − ∞ < x < ∞ F(x)=P(X\le x),-\infty<x<\infty F(x)=P(Xx),<x<

  • 对于连续型随机变量: 求其区间概率 P ( x 1 < X ≤ x 2 ) P(x_1 < X \le x_2) P(x1<Xx2);就可以写为
    P ( x 1 < X ≤ x 2 ) = F ( x 1 ) − F ( x 2 ) P(x_1 < X \le x_2)=F(x_1)-F(x_2) P(x1<Xx2)=F(x1)F(x2)
  • 对于离散型随机变量: 求其某点概率 P ( X = x ) P(X = x) P(X=x);就可以写为:
    P ( X = x ) = F ( x ) − lim ⁡ h → 0 F ( x − h ) = F ( x ) − F ( x − ) P(X = x)=F(x)-\lim_{h \to 0} F(x-h)=F(x)-F(x^-) P(X=x)=F(x)h0limF(xh)=F(x)F(x)
    其中 F ( x − ) F(x^-) F(x)表示左极限(其实就是CDF分段函数(离散型)的上一个取值)

注意:

  • 分布函数 F ( x ) F(x) F(x)的自变量是随机变量的取值,但是值不是 X = x X=x X=x的概率,而是 X ≤ x X\le x Xx的概率;通常使用,相减才是概率;(和PDF相似,PDF要积分才是概率)
  • F ( x ) F(x) F(x)是一个不减函数(单调增函数): 证明:对于任意实数 x 1 , x 2 ; x 1 < x 2 x_1,x_2; x_1<x_2 x1,x2;x1<x2
    F ( x 1 ) − F ( x 2 ) = P ( x 1 < X ≤ x 2 ) ≥ 0 F(x_1)-F(x_2)=P(x_1< X \le x_2)\ge 0 F(x1)F(x2)=P(x1<Xx2)0
  • 0 ≤ F ( x ) ≤ 1 0\le F(x) \le 1 0F(x)1,且
    F ( − ∞ ) = lim ⁡ x → − ∞ F ( x ) = 0 , F ( ∞ ) = lim ⁡ x → ∞ F ( x ) = 1 F(-\infty)=\lim_{x \to -\infty}F(x)=0,F(\infty)=\lim_{x \to \infty}F(x)=1 F()=xlimF(x)=0,F()=xlimF(x)=1
  • 分布函数的定义域是全体实数,即 x ∈ R x\in\mathbb R xR,值域是 [ 0 , 1 ] [0,1] [0,1]
  • 当随机变量是离散型随机变量时,分布函数不连续,有跳跃间断点,即在每个可能取值上跳跃
  • 当随机变量是连续型随机变量时,分布函数连续;即使随机变量的取值范围有限,例如 [ a , b ] [a,b] [a,b],无非是分布函数在 [ − ∞ , a ] [-\infty,a] [,a]值是0罢了;

几个函数的动态展示,参见以下(可能需要魔法): 看见统计-概率分布

例1: 设随机变量的分布律如下,求分布函数 F ( x ) F(x) F(x),以及使用分布函数计算 P ( X = 2 ) P(X=2) P(X=2)

k k k123
P ( X = k ) P(X=k) P(X=k)0.50.10.2

F ( x ) = { 0 , x < 1 0.5 , 1 ≤ x < 2 0.6 , 2 ≤ x < 3 1 , 3 ≤ x F(x)= \begin{cases} 0, & x < 1 \\ 0.5, & 1 \le x < 2 \\ 0.6, &2 \le x < 3 \\ 1, &3 \le x \\ \end{cases} F(x)= 0,0.5,0.6,1,x<11x<22x<33x
P ( X = 2 ) = F ( 2 ) − F ( 2 − ) = 0.6 − 0.5 = 0.1 P(X=2)=F(2)-F(2^-)=0.6-0.5=0.1 P(X=2)=F(2)F(2)=0.60.5=0.1
可见,对于离散型随机变量:
F ( x ) = ∑ k ≤ x P ( X = k ) F(x)=\sum_{k\le x} P(X=k) F(x)=kxP(X=k)
即从概率质量函数PMF f ( x ) f(x) f(x)计算分布函数CDF公式为:
F ( x ) = ∑ k ≤ x f ( k ) F(x)=\sum_{k\le x}f(k) F(x)=kxf(k)

例2一个靶子半径是2m的圆盘,设击中靶上任意一同心圆盘上的点的概率与该圆盘的面积成正比,并不会落靶,以 X X X表示弹着点与圆心的距离,试求随机变量 X X X的分布函数;1
解:已知:
X ∈ [ 0 , 2 ] ; P ( X = x ) ∝ π x 2 X \in [0,2];P(X=x) \propto \pi x^2 X[0,2];P(X=x)πx2
设比例系数为 k k k;则 P ( 0 ≤ X ≤ x ) = k x 2 P(0 \le X \le x)=kx^2 P(0Xx)=kx2;令 x = 2 x=2 x=2,则
P ( 0 ≤ X ≤ 2 ) = 4 k = 1 ; k = 1 4 P(0 \le X \le 2)=4k=1;k=\frac14 P(0X2)=4k=1;k=41
代入得到
P ( 0 ≤ X ≤ x ) = x 2 4 F ( x ) = P ( X ≤ x ) 令 x = 2 F ( 2 ) = P ( X ≤ 2 ) = P ( X < 0 ) + P ( 0 ≤ X ≤ 2 ) = x 2 4 F ( x ) = { 0 , x < 0 x 2 4 0 ≤ x ≤ 2 1 , x > 2 \begin{gather*} P(0 \le X \le x )=\frac{x^2}4\\ F(x)=P(X \le x)\\ 令x=2\\ F(2)=P(X \le 2)=P(X < 0) + P(0 \le X \le 2) =\frac{x^2}4 \\ F(x)= \begin{cases} 0, & x < 0 \\ \frac{x^2}4 & 0 \le x \le 2 \\ 1, & x >2 \\ \end{cases} \end{gather*} P(0Xx)=4x2F(x)=P(Xx)x=2F(2)=P(X2)=P(X<0)+P(0X2)=4x2F(x)= 0,4x21,x<00x2x>2
从概率密度 f ( t ) f(t) f(t)的角度去看;
F ( x ) = ∫ − ∞ x f ( t ) d t f ( x ) = d d x F ( x ) = x 2 , 0 ≤ X ≤ 2 F(x)=\int_{-\infty}^xf(t)dt\\ f(x)=\frac{d}{dx}F(x)=\frac x2,0 \le X \le 2 F(x)=xf(t)dtf(x)=dxdF(x)=2x,0X2

累积分布函数 F ( x ) F(x) F(x)概率密度函数 f ( x ) f(x) f(x) 的积分形式,表示随机变量 X X X 小于等于某个值 x x x 的概率。

对于概率密度函数 f ( x ) f(x) f(x),求区间概率 P ( a ≤ X ≤ b ) P(a\le X \le b) P(aXb)
P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x = F ( b ) − F ( a ) P(a\le X \le b)=\int_a^bf(x)dx=F(b)-F(a) P(aXb)=abf(x)dx=F(b)F(a)
a → − ∞ a\to -\infty a
P ( X ≤ b ) = ∫ − ∞ b f ( x ) d x = F ( b ) P( X \le b)=\int_{ -\infty}^bf(x)dx=F(b) P(Xb)=bf(x)dx=F(b)

信息量

  1. 概率越大的事件,信息量越小
  2. 概率越小的事件,信息量越大
  3. 独立事件的信息量可以相加

即:量化一个事件发生时所携带的信息多少

示例:

  • 我今天没有出车祸,概率很大,明显是一句废话,含的信息量很小
  • 我今天出车祸了,概率很小,听到消息的亲戚朋友很震惊,含的信息量就很大

信息量 I ( x ) I(x) I(x)概率 p ( x ) {p(x)} p(x)应成反比;即 I ( x ) ∝ 1 p ( x ) I(x)\propto \frac {1}{p(x)} I(x)p(x)1

  • 我今天出车祸了,公司也倒闭了,是互相独立的事件;和老婆说了,老婆很震惊,两件事件的信息量应是可以相加的; 如我今天出车祸了(撞死的是老板),导致公司倒闭了,那么2件事情就不是独立事件,信息量就不能相加,且显然可知信息量更大了!

事件 A A A B B B独立事件时,同时发生的概率为: P ( A ∩ B ) = P ( A ) × P ( B ) P(A \cap B)=P(A)\times P(B) P(AB)=P(A)×P(B)

要使:
I ( x ) ∝ 1 p ( x ) I ( A ) + I ( B ) ∝ 1 p ( A ∪ B ) = 1 p ( A ) × p ( B ) 则令 : I ( x ) = log ⁡ n 1 p ( x ) 即可 I ( A ) + I ( B ) = log ⁡ n 1 p ( A ) + log ⁡ n 1 p ( B ) = log ⁡ n 1 p ( A ) p ( B ) = − l o g n ( p ( A ) p ( B ) ) \begin{gather*} I(x)\propto \frac {1}{p(x)}\\ I(A)+I(B) \propto\frac{1}{p(A\cup B)}=\frac{1}{p(A)\times p(B)}\\ 则令:I(x)=\log_{n}\frac{1}{p(x)}即可\\ \begin{aligned} I(A)+I(B)=&\log_{n}\frac{1}{p(A)}+\log_{n}\frac{1}{p(B)}\\ &=\log_{n}\frac{1}{p(A)p(B)}\\ &=-log_{n}(p{(A)p(B)}) \end{aligned} \end{gather*} I(x)p(x)1I(A)+I(B)p(AB)1=p(A)×p(B)1则令:I(x)=lognp(x)1即可I(A)+I(B)=lognp(A)1+lognp(B)1=lognp(A)p(B)1=logn(p(A)p(B))
故信息量定义为:
I ( x ) = log ⁡ n 1 p ( x ) I(x)=\log_{n}\frac{1}{p(x)} I(x)=lognp(x)1

  • 底数为 2 2 2:单位为比特(bit),适用于二进制系统(如计算机通信)。
  • 底数为 e e e:单位为奈特(nat),常用于数学和物理学。
  • 底数为 10 10 10:单位为哈特莱(Hartley),适用于十进制场景。

示例:抛出不均匀硬币正面朝上的概率是0.8,则连续两次均为正面的概率是0.64,信息量如下:
I ( x 1 ) = log ⁡ 2 1 0.8 ≈ 0.3219 I ( x 1 ) + I ( x 2 ) = log ⁡ 2 1 0.8 × 2 = log ⁡ 2 1 0.64 ≈ 0.6438 \begin{gather*} I(x_1) = \log_{2}{\frac {1}{0.8}}\approx 0.3219\\ I(x_1)+I(x_2)= \log_{2}{\frac {1}{0.8}}\times 2=\log_{2}{\frac {1}{0.64}}\approx 0.6438 \end{gather*} I(x1)=log20.810.3219I(x1)+I(x2)=log20.81×2=log20.6410.6438

香农熵

  • 香农熵量化信息的不确定性或混乱程度;越混乱值就越大,反之越小;
  • 示例1:存在以下两个硬币,抛出,比较香农熵 H ( X ) H(X) H(X):
    1. 均匀硬币
    2. 非均匀硬币 P ( 正 ) = 0.8 , P ( 负 ) = 0.2 P(正)=0.8,P(负)=0.2 P()=0.8,P()=0.2

首先直观的感受,谁更混乱一点,谁更稳定;

例如你是一个赌徒,猜中就可以获得1元;上述2个硬币,你当然愿意选择硬币2,因为只需要每次猜正面就好了,有8成可能性猜中;故认为2硬币更稳定,极端一点,有一个99.999%都是正面的硬币,应该非常稳定,而均匀硬币则是最混乱的;

H ( X 1 ) > H ( X 2 ) H(X_1)>H(X_2) H(X1)>H(X2)

  • 示例2:存在以下4个六面骰子,抛出,比较香农熵 H ( X ) H(X) H(X)
    1. 均匀骰子
    2. P ( 1 ) = 1 2 ; P ( 2 − 6 ) = 1 10 P(1)=\frac12;P(2-6)=\frac1{10} P(1)=21;P(26)=101
    3. P ( 1 ) = 1 3 ; P ( 2 − 6 ) = 2 15 P(1)=\frac13;P(2-6)=\frac2{15} P(1)=31;P(26)=152
    4. P ( 1 ) = 1 3 ; P ( 2 − 3 ) = 1 6 ; P ( 4 − 6 ) = 1 9 ; P(1)=\frac13;P(2-3)=\frac1{6};P(4-6)=\frac1{9}; P(1)=31;P(23)=61;P(46)=91;

依据以上描述,显然可见: H ( X 1 ) > H ( X 3 ) > H ( X 4 ) > H ( X 2 ) H(X_1)>H(X_3)>H(X_4)>H(X_2) H(X1)>H(X3)>H(X4)>H(X2)

  • 可能对3和4有一些疑问,最好的方案就是用一个公式来求得香农熵;显然可见,与每个事件的概率都有关,但不能直接相加,因为相加等于1;
  • 概率越高的事件,其信息量对整体熵的贡献越大;概率越低的事件,虽然单次信息量大,但发生的频率低,对整体熵的贡献较小。我们只需要把每个概率所对应的信息量和概率相乘,再求和,即得到平均信息量;对于事件i来说,他的对于总体信息量的贡献就是 P ( x i ) ⋅ I ( x i ) P(x_i)\cdot I(x_i) P(xi)I(xi),
  • 故对于一个离散随机变量 X X X
    H ( X ) = ∑ i = 1 n p ( x i ) ⋅ I ( x i ) = − ∑ i = 1 n p ( x i ) ⋅ log ⁡ b p ( x i ) H(X) = \sum _{i=1}^{n}p(x_i)\cdot I(x_i)= -\sum _{i=1}^{n}p(x_i)\cdot \log_b{p(x_i)} H(X)=i=1np(xi)I(xi)=i=1np(xi)logbp(xi)

其中:

  • p ( x i ​ ) p(x_i​) p(xi):事件 x i ​ x_i​ xi发生的概率。
  • n n n:所有可能事件的总数。
  • b b b:对数的底数,通常取2(单位为比特,bit)、自然对数(单位为奈特,nat)或10(单位为哈特莱,Hartley)。

关键特性:

  • 非负性:熵值 H ( X ) ≥ 0 H(X)≥0 H(X)0

  • 最大值:当所有事件概率相等时,熵达到最大值 log ⁡ ⁡ b n \log⁡_bn logbn

  • 可加性:若两个随机变量独立,则联合熵等于各自熵的和。
    香农熵是“平均信息量”

  • 计算示例2:
    H ( X 1 ​ ) = log ⁡ 2 n = log ⁡ 2 6 ≈ 2.58 ( b i t ) H ( X 2 ​ ) = − ∑ i = 1 n p ( x i ) ⋅ log ⁡ b p ( x i ) = p ( x 1 ) ⋅ I ( x 1 ) + 5 × p ( x 2 ) ⋅ I ( x 2 ) = − 1 2 × log ⁡ 2 1 2 + − 5 × ( 1 10 × log ⁡ 2 1 10 ) ≈ 0.832 ( b i t ) H ( X 3 ​ ) = p ( x 1 ) ⋅ I ( x 1 ) + 5 × p ( x 2 ) ⋅ I ( x 2 ) = − 1 3 × log ⁡ 2 1 3 + − 5 × ( 2 15 × log ⁡ 2 2 15 ) ≈ 2.4662 ( b i t ) H ( X 4 ​ ) = p ( x 1 ) ⋅ I ( x 1 ) + 3 × p ( x 2 ) ⋅ I ( x 2 ) + 2 × p ( x 4 ) ⋅ I ( x 4 ) = − 1 3 × log ⁡ 2 1 3 − 3 × ( 1 6 × log ⁡ 2 1 6 ) − 2 × ( 1 9 × log ⁡ 2 1 9 ) ≈ 2.0944 ( b i t ) \begin{align*} H(X_1​)&=\log_2n=\log_26 \\& \approx 2.58(bit)\\ H(X_2​)&=-\sum _{i=1}^{n}p(x_i)\cdot \log_b{p(x_i)}\\ &=p(x_1)\cdot I(x_1) + 5\times p(x_2)\cdot I(x_2)\\ &=-\frac12\times \log_2{\frac12} +-5\times(\frac1{10}\times \log_2{\frac1{10}})\\ &\approx 0.832(bit)\\ H(X_3​)&=p(x_1)\cdot I(x_1) + 5\times p(x_2)\cdot I(x_2)\\ &=-\frac13\times \log_2{\frac13} +-5\times(\frac2{15}\times \log_2{\frac2{15}})\\ &\approx 2.4662(bit)\\ H(X_4​)&=p(x_1)\cdot I(x_1) + 3\times p(x_2)\cdot I(x_2) + 2\times p(x_4)\cdot I(x_4)\\ &=-\frac13\times \log_2{\frac13} -3\times(\frac1{6}\times \log_2{\frac1{6}})-2\times(\frac1{9}\times \log_2{\frac1{9}})\\ &\approx 2.0944(bit) \end{align*} H(X1)H(X2)H(X3)H(X4)=log2n=log262.58(bit)=i=1np(xi)logbp(xi)=p(x1)I(x1)+5×p(x2)I(x2)=21×log221+5×(101×log2101)0.832(bit)=p(x1)I(x1)+5×p(x2)I(x2)=31×log231+5×(152×log2152)2.4662(bit)=p(x1)I(x1)+3×p(x2)I(x2)+2×p(x4)I(x4)=31×log2313×(61×log261)2×(91×log291)2.0944(bit)

  • 换句话说,香农熵其实衡量了分布的集中程度,均匀分布熵最大,越集中分布,熵越小;

  • 对于连续随机变量
    H ( X ) = − ∫ − ∞ ∞ p ( x ) log ⁡ p ( x )   d x E H(X) = -\int_{-\infty}^{\infty} p(x) \log p(x) \, dx E H(X)=p(x)logp(x)dxE

排列与组合

排列

  • 从 n 个不同元素中取出 m 个元素,按照一定顺序排成一列,出现的可能性个数为排列数。顺序不同即为不同的排列。(英文:Permutation也写作Arrangement)
  • 常见记为以下几种写法,都可以:
    A ( n , m ) = P ( n , m ) = A n m = P n m A(n,m)=P(n,m)=A^m_n=P^m_n A(n,m)=P(n,m)=Anm=Pnm
  • 计算公式为:
    A n m = n ! ( n − m ) ! A^m_n=\frac{n!}{(n-m)!}\\ Anm=(nm)!n!

组合

  • 从 n 个不同元素中取出 m 个元素,不考虑顺序地组合在一起。
  • 常见3种写法,第三种常见在二项式系数中
    C ( n , m ) = C n m = ( n m ) C(n,m)=C^m_n=\binom{n}{m} C(n,m)=Cnm=(mn)
  • 计算公式为,即为排除了重复可能的排列数
    C n m = A n m A m m = n ! m ! ( n − m ) ! C^m_n=\frac{A^m_n}{A^m_m}=\frac{n!}{m!(n-m)!} Cnm=AmmAnm=m!(nm)!n!

  1. 概论与数理统计第五版,浙江大学 ↩︎

posted @ 2025-06-17 16:10  tomcat4014  阅读(2)  评论(0)    收藏  举报  来源