【stat】概率统计、统计推断、统计决策理论
2013-05-16 20:51 Loull 阅读(1122) 评论(0) 编辑 收藏 举报一、概率统计
概率vs. 统计
概率:研究随机事件出现的可能性的数学分支,描述非确定性(Uncertainty)的正式语言,是统计推断的基础
概率: 一个事件或事件集合出现的可能性
基本问题:给定以一个数据产生过程,则输出的性质是什么
统计推断:处理数据分析和概率理论的数学分支,与数据
挖掘和机器学*是*亲
统计量:一个用以描述样本或总体性质的数值,如均值或方差
基本问题:给定输出数据,我们可以得到该数据的产生过程的哪些信息
统计学 ≈ 根据数据进行推理的学科
统计学* ≈多元统计分析 + 计算统计学
多元统计分析 ≈ 基于一个多元变量数据集,预测函数值
计算统计学 ≈ 统计问题的计算方法 (a.k.a. 统计计算) + 计算繁重的统计方法
数据挖掘 ≈ 研究数据分析,尤其是大数据量/复杂的数据集
统计学*的基本问题
有监督/无监督学*
有监督学*:回归、分类
无监督学*:概率密度估计、聚类、降维
模型选择
模型评价:损失函数
模型选择
复杂性 vs. 推广性
二、统计推断
统计推断概述:利用数据来推断产生数据的分布的过程
非参数推断
Bootstrap
参数推断
假设检验
统计决策理论推断的基本问题:
点估计
置信区间
假设检验
统计推断方法
频率推断
贝叶斯推断
统计函数估计
点估计
区间估计/标准误差
影响函数
Bootstrap
Bootstrap也可用于偏差、置信区间和分布估计等计算
重采样技术(resampling)
Bootstrap
刀切法(jackknife)
Bootstrap简介
Bootstrap:利用计算机手段进行重采样
一种基于数据的模拟(simulation)方法,用于统计推断。基本思想是:利用样本数据计算统计量和估计样本分布,而不对模型做任何假设(非参数bootstrap)
无需标准误差的理论计算,因此不关心估计的数学形式有多复杂
Bootstrap有两种形式:非参数bootstrap和参数化的bootstrap,但基本思想都是模拟
重采样
对原始数据进行有放回的随机采样,抽取的样本数目同原始样本数目一样
三、统计学*:统计决策理论(更关心模型选择)
用不同方法可能得到多个不同的估计,哪个估计更好一些?
统计决策理论:比较统计过程的形式化理论
损失函数:度量真值与估计之间的差异
风险函数:
决策规则:
贝叶斯估计:
最小最大规则:
MLE为*似最小最大估计: