代码改变世界

【stat】概率统计、统计推断、统计决策理论

2013-05-16 20:51  Loull  阅读(1122)  评论(0编辑  收藏  举报

一、概率统计

概率vs. 统计

概率:研究随机事件出现的可能性的数学分支,描述非确定性(Uncertainty)的正式语言,是统计推断的基础
  概率: 一个事件或事件集合出现的可能性
  基本问题:给定以一个数据产生过程,则输出的性质是什么

统计推断:处理数据分析和概率理论的数学分支,与数据
挖掘和机器学*是*亲
  统计量:一个用以描述样本或总体性质的数值,如均值或方差
  基本问题:给定输出数据,我们可以得到该数据的产生过程的哪些信息

 

统计学 ≈ 根据数据进行推理的学科
统计学* ≈多元统计分析 + 计算统计学
多元统计分析 ≈ 基于一个多元变量数据集,预测函数值
计算统计学 ≈ 统计问题的计算方法 (a.k.a. 统计计算) + 计算繁重的统计方法
数据挖掘 ≈ 研究数据分析,尤其是大数据量/复杂的数据集
 
统计学*的基本问题
有监督/无监督学*
  有监督学*:回归、分类
  无监督学*:概率密度估计、聚类、降维
模型选择
  模型评价:损失函数
  模型选择
    复杂性 vs. 推广性
 
二、统计推断
统计推断概述:利用数据来推断产生数据的分布的过程
非参数推断
Bootstrap
参数推断
假设检验
统计决策理论
 
推断的基本问题:
  点估计
  置信区间
  假设检验
 
统计推断方法
  频率推断
  贝叶斯推断
 
 
统计函数估计
  点估计
  区间估计/标准误差
    影响函数
    Bootstrap
  Bootstrap也可用于偏差、置信区间和分布估计等计算
 
重采样技术(resampling)
  Bootstrap
  刀切法(jackknife)
 
Bootstrap简介
Bootstrap:利用计算机手段进行重采样
一种基于数据的模拟(simulation)方法,用于统计推断。基本思想是:利用样本数据计算统计量和估计样本分布,而不对模型做任何假设(非参数bootstrap)
无需标准误差的理论计算,因此不关心估计的数学形式有多复杂
Bootstrap有两种形式:非参数bootstrap和参数化的bootstrap,但基本思想都是模拟
 
重采样
对原始数据进行有放回的随机采样,抽取的样本数目同原始样本数目一样
 
三、统计学*:统计决策理论(更关心模型选择)
用不同方法可能得到多个不同的估计,哪个估计更好一些?
统计决策理论:比较统计过程的形式化理论
 
损失函数:度量真值与估计之间的差异
 
风险函数
 
决策规则
 
贝叶斯估计
 
最小最大规则
 
MLE为*似最小最大估计: