gtts微薄

概率论

      网上找了一个概率总结PPT,放到这里可以借鉴,没有必要以后再去到处搜了,当然要想真正学好得看更加详细的资料。

      自然界发生的现象分为两类。一类现象在一定条件下发生的结果是完全可以预知的,称为必然现象。另一类现象发生的结果事先是无法准确预知的,称为偶然现象或随机现象。随机现象中的事件可能发生也可能不发生。一个随机事件A发生的可能性的大小,用一个介于0~1的数表示出来。

      随机现象中,变量的取值是不确定的,称为随机变量。描述随机变量取值概率的函数称为概率分布。对于随机变量,通常主要关心它的两个数字特征:数学期望(或称均值)——用于描述随机变量的平均值,方差——用于描述随机变量分布的差异程度,方差的算术平方根称为均方差(或标准方差)。另外协方差和相关系数用于描述两个随机变量的线性关联程度。

      随机变量的分布,根据其取值特点不同主要分为离散型和连续型两类,若用变量ξ 表示实验仪“正面向上次数”,其取值可能为0,1,2,…,10(离散点集),则为离散型随机变量。典型的离散分布有离散均匀分布、二项分布、Possion分布等。典型的连续型分布有均匀分布、正态分布、指数分布、χ²分布、t分布和F分布等。

表1 常见概率分布密度函数
序号 中文函数名 英文函数名 英文简写 备注
1 Beta分布 Beta beta  
2 二项分布 Binomial bino  
3 卡方分布 Chisquare chi2 抽样
4 指数分布 Exponential exp  
5 F分布 F f 抽样
6 Gamma分布 Gamma gam  
7 几何分布 Geometric geo  
8 超几何分布 Hypergeometric hyge  
9 对数正态分布 Lognormal logn  
10 负二项分布 Negative Binomial bbin  
11 非中心F分布 Noncentral F ncf  
12 非中心t烦恼 Noncentral t nct  
13 非中心卡方分布 Noncentral Chi-square ncx2  
14 正态分布 Normal norm  
15 泊松分布 Poisson poiss  
16 瑞利分布 Rayleigh ray1  
17 T分布 T t 抽样
18 均匀分布 Uniform unif  
19 离散均匀分布 Discrete Uniform unid  
20 Weibull分布 Weibull weib  

1、离散均匀分布

      设一个随机变量ξ服从离散均匀分布,如果它的概率分布为

image

图1 离散均匀分布

      即ξ 以相同的概率取{1,2,…,n}中的值。

>> n=20;
>> x=1:n;
>> y=unidpdf(x,n);
>> plot(x,y,'o-');

2、二项分布B(n,p)

      若将实验可能结果分为两个:A发生或A不发生,则称此随机实验为Bernoulli实验。

设随机变量

那么,ξ 服从一个简单离散型分布P(ξ=0)=1-p,称为Bernoulli分布或0-1分布。

      将Bernoulli实验独立重复进行n次,称为n重Bernoulli实验,n重Bernoulli实验中A发生的次数的分布为

称为参数为n,p的二项分布,记为ξ~B(n,p)。二项分布的数学期望E(ξ)=np,

方差D(ξ)=np(1-p)。

>> x=0:50;
>> y=binopdf(x,500,0.05);
>> plot(x,y);

image

图2 二项分布

3、均匀分布

      先看图吧:

>> x=-10:0.1:10;r=1;
>> y=unifpdf(x,0,2*pi*r);
>> plot(x,y);

image

图3 均匀分布

      均匀分布(图3)是一个简单而重要的连续型概率分布,其密度函数为

      它的实际意义是:随机变量取值总是在(a,b)内,并且每一点附近取值可能性相同.均匀分布的数学期望E(ξ)=(a+b)/2,方差D(ξ)=(b-a)²/12。特别地,区间(0,1)上的均匀分布称为标准均匀分布。

4、正态分布N(μ,σ²)

      正态分布是应用最广泛的一类概率分布,其概率密度函数为

      记为N(μ,σ²),其中μ是随机变量取值的平均,而σ表征了随机变量取值的差异。特别地,N(0,1)称为标准正态分布。最典型的正态分布的例子是测量误差,很多事件都服从正态分布。正态分布的数学期望E(ξ)=μ,方差D(ξ)=σ²。

      正态分布有很多的性质。设,i=1,2,…,n,且这些随机变量相互独立,那么它的线性函数任然是正态分布。特别地,若ξ~N(μ,σ²),那么(ξ-μ)/σ~N(0,1),即任何正态分布可以通过线性变换转化为标准正态分布(图4)。

>> x=-8:0.1:8;
>> y=normpdf(x,0,1);
>> y1=normpdf(x,1,2);
>> plot(x,y,x,y1,':');

image

图4 标准正态和飞标准正态

5、分布函数和逆分布函数

      设ξ 是一个随机变量,称

F(x)=p(ξ≤x),   -∞<x<∞

为ξ 的分布函数,它是ξ 不超过x的概率分布的累加,所以也称为累计概率函数。分布函数的逆函数称为逆分布函数,它构成映射p->xp,使得

p(ξ≤xp)=p,   0≤p≤1

xp也称为100p%下分位数。

6、统计量

      所谓总体就是一大批具有特定意义的待分析的随机数据,数学上用一个未知的概率分布表示。在多数情况下,总体的分布类型是已知的,只是某些参数未知。例如,已知总体服从正态分布N(μ,σ²),但其中参数μ,σ²未知。总体的一部分数据x1,x2,…,xn称为一个容量为n的样本。数理统计就是要根据样本对总体进行推断。

      不含未知参数的样本的函数称为统计量,他是样本特征的集中反映,选取一个正确的统计量是Tatyor推断的关键,几个最基本的统计量如下。
(1)样本均值,反映了样本取值的平均值。
(2) 样本方差 ,样本标准差s=sqrt(s^2),反映了样本对于均值的偏离程度。样本极差x(n)-x(1)也是离散程度的反映。
(3) 样本协方差 ,样本相关系数 ,其中sx,sy为样本标准差。相关系数反映了样本x1,x2,…xn与样本y1,y2,…,yn的线性相关关系。若r接近于1,x较大时y也较大;若r接近于-1,说明x较大时y较小;若r接近于0,说明x与y取值大小无线性相关关系,总之,|r|接近1说明线性关系密切。
(4) 样本百分位数,将x1,x2,…,xn从小到大顺序排为x(1),x(2),…,x(n),q%上分位数(等价于(100-q)%下分位数)表示这样一个值xq:比xq大的样本占样本总数的q%。50%上分位数(等价与50%下分位数)称为中位数,比它大的样本与比它小的样本一样多。

7、参数估计

      在统计推断中,总体参数θ未知,需要根据样本x1,x2,…,xn估计θ的值。参数估计分为两类:点估计和区间估计。点估计就是直接给出θ的估计值,如“θ大约等于1.3”。但点估计缺乏对精度的说明。而区间估计给出θ的估计值区间,并附加一个概率,如“θ的95%置信区间是[1.26,1.36]”,含义是:θ在[1.24,1.36]内的概率为0.95。

      设有总体F(x,θ),其中参数θ未知,现有来自F(x,θ)的一个样本x1,x2,…,xn,要估计θ的值。如有区间CI=[θ12],使得

P(θ1<θ<θ2)=1-α

称CI为θ的100(1-α)%置信区间。

      设ξ 为正态总体N(μ,σ²),μ,σ未知,x1,x,2,…,xn为样本,那么μ和σ的点估计分别为

μ=x拔,σ=s

它们的100(1-α)%置信区间分别为

式中:表示自由度为(n-1)的t分布的100(1-α/2)%下分位数。

8、假设检验

      许多统计推断常涉及对某假设的正确性作出“是”与“否”的判决,例如,某厂产品是否合格、某数学模型是否与现实相符等。在这类问题中,往往是要判断手头的数据是否与某假设明显不符,所以也称为显著性检验。

posted @ 2011-05-21 14:26  gtts  阅读(1989)  评论(0编辑  收藏  举报