概率论

网上找了一个概率总结PPT，放到这里可以借鉴，没有必要以后再去到处搜了，当然要想真正学好得看更加详细的资料。

自然界发生的现象分为两类。一类现象在一定条件下发生的结果是完全可以预知的，称为必然现象。另一类现象发生的结果事先是无法准确预知的，称为偶然现象或随机现象。随机现象中的事件可能发生也可能不发生。一个随机事件A发生的可能性的大小，用一个介于0~1的数表示出来。

随机现象中，变量的取值是不确定的，称为随机变量。描述随机变量取值概率的函数称为概率分布。对于随机变量，通常主要关心它的两个数字特征：数学期望（或称均值）——用于描述随机变量的平均值，方差——用于描述随机变量分布的差异程度，方差的算术平方根称为均方差（或标准方差）。另外协方差和相关系数用于描述两个随机变量的线性关联程度。

随机变量的分布，根据其取值特点不同主要分为离散型和连续型两类，若用变量ξ 表示实验仪“正面向上次数”，其取值可能为0,1,2，…，10（离散点集），则为离散型随机变量。典型的离散分布有离散均匀分布、二项分布、Possion分布等。典型的连续型分布有均匀分布、正态分布、指数分布、χ²分布、t分布和F分布等。

表1 常见概率分布密度函数
序号	中文函数名	英文函数名	英文简写	备注
1	Beta分布	Beta	beta
2	二项分布	Binomial	bino
3	卡方分布	Chisquare	chi2	抽样
4	指数分布	Exponential	exp
5	F分布	F	f	抽样
6	Gamma分布	Gamma	gam
7	几何分布	Geometric	geo
8	超几何分布	Hypergeometric	hyge
9	对数正态分布	Lognormal	logn
10	负二项分布	Negative Binomial	bbin
11	非中心F分布	Noncentral F	ncf
12	非中心t烦恼	Noncentral t	nct
13	非中心卡方分布	Noncentral Chi-square	ncx2
14	正态分布	Normal	norm
15	泊松分布	Poisson	poiss
16	瑞利分布	Rayleigh	ray1
17	T分布	T	t	抽样
18	均匀分布	Uniform	unif
19	离散均匀分布	Discrete Uniform	unid
20	Weibull分布	Weibull	weib

1、离散均匀分布

设一个随机变量ξ服从离散均匀分布,如果它的概率分布为

$P(\xi=k)=1/n,k=0,1,...,n$

图1 离散均匀分布

即ξ 以相同的概率取{1,2,…,n}中的值。

>> n=20;
>> x=1:n;
>> y=unidpdf(x,n);
>> plot(x,y,'o-');

2、二项分布B(n,p)

若将实验可能结果分为两个：A发生或A不发生，则称此随机实验为Bernoulli实验。

设随机变量

$\xi=\left\{{1,A\ yes}\atop{0,A\ no}\right$

那么,ξ 服从一个简单离散型分布P(ξ=0)=1-p,称为Bernoulli分布或0-1分布。

将Bernoulli实验独立重复进行n次，称为n重Bernoulli实验，n重Bernoulli实验中A发生的次数的分布为

$P(\xi=k)=C^k_np^k(1-p)^{n-k},k=0,1,...,n$

称为参数为n,p的二项分布，记为ξ~B(n,p)。二项分布的数学期望E(ξ)=np,

方差D(ξ)=np(1-p)。

>> x=0:50;
>> y=binopdf(x,500,0.05);
>> plot(x,y);

图2 二项分布

3、均匀分布

先看图吧:

>> x=-10:0.1:10;r=1;
>> y=unifpdf(x,0,2*pi*r);
>> plot(x,y);

图3 均匀分布

均匀分布(图3)是一个简单而重要的连续型概率分布，其密度函数为

$f(x)=\left\{{\frac{1}{b-a},x\in(a,b)}\atop{0, other}$

它的实际意义是:随机变量取值总是在(a,b)内,并且每一点附近取值可能性相同.均匀分布的数学期望E(ξ)=(a+b)/2，方差D(ξ)=(b-a)²/12。特别地，区间(0,1)上的均匀分布称为标准均匀分布。

4、正态分布N(μ,σ²)

正态分布是应用最广泛的一类概率分布，其概率密度函数为

$f(x)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$

记为N(μ,σ²),其中μ是随机变量取值的平均，而σ表征了随机变量取值的差异。特别地，N(0,1)称为标准正态分布。最典型的正态分布的例子是测量误差，很多事件都服从正态分布。正态分布的数学期望E(ξ)=μ,方差D(ξ)=σ²。

正态分布有很多的性质。设 $\xi_i\sim N(\mu_i,\sigma^2)$ ,i=1,2,…,n，且这些随机变量相互独立，那么它的线性函数任然是正态分布。特别地，若ξ~N(μ,σ²)，那么（ξ-μ）/σ~N(0,1)，即任何正态分布可以通过线性变换转化为标准正态分布（图4）。

>> x=-8:0.1:8;
>> y=normpdf(x,0,1);
>> y1=normpdf(x,1,2);
>> plot(x,y,x,y1,':');

图4 标准正态和飞标准正态

5、分布函数和逆分布函数

设ξ 是一个随机变量,称

F(x)=p(ξ≤x), -∞<x<∞

为ξ 的分布函数，它是ξ 不超过x的概率分布的累加，所以也称为累计概率函数。分布函数的逆函数称为逆分布函数，它构成映射p->x_p，使得

p(ξ≤x_p)=p, 0≤p≤1

x_p也称为100p%下分位数。

6、统计量

所谓总体就是一大批具有特定意义的待分析的随机数据，数学上用一个未知的概率分布表示。在多数情况下，总体的分布类型是已知的，只是某些参数未知。例如，已知总体服从正态分布N(μ,σ²),但其中参数μ，σ²未知。总体的一部分数据x1,x2,…,xn称为一个容量为n的样本。数理统计就是要根据样本对总体进行推断。

不含未知参数的样本的函数称为统计量，他是样本特征的集中反映，选取一个正确的统计量是Tatyor推断的关键，几个最基本的统计量如下。
(1)样本均值 $\overline{x}=\frac{1}{n}\sum_{i=1}^{n}(x_i)$ ，反映了样本取值的平均值。
(2) 样本方差 $s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2$ ,样本标准差s=sqrt(s^2)，反映了样本对于均值的偏离程度。样本极差x_(n)-x₍₁₎也是离散程度的反映。
(3) 样本协方差 $cov(x,y)=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})$ ,样本相关系数 $r(x,y)=\frac{cov(x,y)}{s_xs_y}$ ,其中s_x,s_y为样本标准差。相关系数反映了样本x1,x2,…xn与样本y1,y2,…,yn的线性相关关系。若r接近于1，x较大时y也较大；若r接近于-1，说明x较大时y较小；若r接近于0，说明x与y取值大小无线性相关关系，总之，|r|接近1说明线性关系密切。
(4) 样本百分位数，将x1,x2,…,xn从小到大顺序排为x(1),x(2),…,x(n),q%上分位数（等价于（100-q）%下分位数）表示这样一个值xq：比xq大的样本占样本总数的q%。50%上分位数（等价与50%下分位数）称为中位数，比它大的样本与比它小的样本一样多。

7、参数估计

在统计推断中，总体参数θ未知，需要根据样本x1,x2,…,xn估计θ的值。参数估计分为两类：点估计和区间估计。点估计就是直接给出θ的估计值，如“θ大约等于1.3”。但点估计缺乏对精度的说明。而区间估计给出θ的估计值区间，并附加一个概率，如“θ的95%置信区间是[1.26,1.36]”，含义是：θ在[1.24,1.36]内的概率为0.95。

设有总体F(x,θ)，其中参数θ未知，现有来自F(x,θ)的一个样本x1,x2,…,xn，要估计θ的值。如有区间CI=[θ₁,θ₂],使得

P(θ₁<θ<θ₂)=1-α

称CI为θ的100（1-α）%置信区间。

设ξ 为正态总体N(μ,σ²),μ,σ未知，x1,x,2,…,xn为样本，那么μ和σ的点估计分别为

μ=x拔,σ=s

它们的100(1-α)%置信区间分别为

$\left(\overline{x}-t_{1-\frac{\alpha}{2}}(n-1)\frac{s}{\sqrt{n}},\overline{x}+t_{1-\frac{\alpha}{2}}(n-1)\frac{s}{\sqrt{n}}\right)$