【stat】概率统计、统计推断、统计决策理论

2013-05-16 20:51 Loull 阅读(1122) 评论(0) 编辑收藏举报

一、概率统计

概率vs. 统计

概率：研究随机事件出现的可能性的数学分支，描述非确定性（Uncertainty）的正式语言，是统计推断的基础
　　概率：一个事件或事件集合出现的可能性
　　基本问题：给定以一个数据产生过程，则输出的性质是什么

统计推断：处理数据分析和概率理论的数学分支，与数据
挖掘和机器学*是*亲
　　统计量：一个用以描述样本或总体性质的数值，如均值或方差
　　基本问题：给定输出数据，我们可以得到该数据的产生过程的哪些信息

统计学 ≈ 根据数据进行推理的学科

统计学* ≈多元统计分析 + 计算统计学

多元统计分析 ≈ 基于一个多元变量数据集，预测函数值

计算统计学 ≈ 统计问题的计算方法 (a.k.a. 统计计算) + 计算繁重的统计方法

数据挖掘 ≈ 研究数据分析，尤其是大数据量/复杂的数据集

统计学*的基本问题

有监督/无监督学*

　　有监督学*：回归、分类

　　无监督学*：概率密度估计、聚类、降维

模型选择

　　模型评价：损失函数

　　模型选择

　　　　复杂性 vs. 推广性

二、统计推断

统计推断概述:利用数据来推断产生数据的分布的过程

非参数推断

Bootstrap

参数推断

假设检验

统计决策理论

推断的基本问题：

　　点估计

　　置信区间

　　假设检验

统计推断方法

　　频率推断

　　贝叶斯推断

统计函数估计

　　点估计

　　区间估计/标准误差

　　　　影响函数

　　　　Bootstrap

　　Bootstrap也可用于偏差、置信区间和分布估计等计算

重采样技术（resampling）

　　Bootstrap

　　刀切法（jackknife）

Bootstrap简介

Bootstrap：利用计算机手段进行重采样

一种基于数据的模拟（simulation）方法，用于统计推断。基本思想是：利用样本数据计算统计量和估计样本分布，而不对模型做任何假设（非参数bootstrap）

无需标准误差的理论计算，因此不关心估计的数学形式有多复杂

Bootstrap有两种形式：非参数bootstrap和参数化的bootstrap，但基本思想都是模拟

重采样

对原始数据进行有放回的随机采样，抽取的样本数目同原始样本数目一样

三、统计学*：统计决策理论（更关心模型选择）

用不同方法可能得到多个不同的估计，哪个估计更好一些？

统计决策理论：比较统计过程的形式化理论

损失函数：度量真值与估计之间的差异

风险函数：

决策规则：

贝叶斯估计：

最小最大规则：

MLE为*似最小最大估计：

会员力量，点亮园子希望

刷新页面返回顶部

Loull

【stat】概率统计、统计推断、统计决策理论

About