数理统计的若干欠账

总体均值用 μ 表示,样本均值用 xˉ 表示
通过样本分布推断总体分布是统计推断的核心任务之一。


一、通过样本的分布可以推知总体的分布:理论基础与核心方法

  1. ​大数定律与中心极限定理​

    • ​大数定律​​:当样本量足够大时,样本均值依概率收敛于总体均值(网页1、网页6、网页8)。
    • ​中心极限定理​​:无论总体分布如何,只要样本量足够大(通常 n≥30),样本均值的分布会趋近正态分布。例如,即使总体是偏态分布,其样本均值的分布仍近似正态(网页6][网页8][网页9)。
    • ​意义​​:为参数估计(如置信区间)和假设检验(如t检验)提供理论支持。
  2. ​抽样分布的特性​

    • 样本统计量(如均值、方差)的分布称为抽样分布,其形态与总体分布和样本量相关:
      • 若总体服从正态分布,样本均值的抽样分布也为正态分布;
      • 若总体非正态但样本量足够大,样本均值的分布仍近似正态(网页9][网页10][网页11)。

(四)区间估计与假设检验

  1. ​置信区间​

    • 通过样本均值和标准差构建总体参数的置信区间(如95%置信区间),量化估计的不确定性(网页1][网页6)。
    • ​公式​​:xˉ±Zα/2​⋅n​σ​(网页1)。

对于最大似然估计法的若干问题:
1.最大似然估计法是解决什么问题,他的思想是什么?
最大似然估计法核心逻辑是:

​“最可能生成当前数据的参数,就是最合理的参数估计值。”​

2.最大似然估计值与估计量的区别

一道最大似然估计的例题:

3.为什么构建似然函数?
似然函数的核心是通过观测数据反推最可能生成这些数据的参数值。其数学定义为:给定参数 θ 时,观测数据 X 出现的联合概率密度(或概率质量)的乘积。
4.​​概率与似然的区别​

  • ​概率​​:已知参数 θ,预测结果(如抛硬币正面概率为0.5时,预测两次正面的概率是0.25);
  • ​似然​​:已知结果(两次正面),反推参数 θ 的合理值(如 θ=0.7 比 θ=0.5 更可能生成该结果)
    5.为什么通过求导求解参数值?
    似然函数通常是多个概率密度(或质量)的乘积,直接优化连乘形式复杂且易导致数值下溢。取自然对数后,乘积变为求和形式,简化计算且不改变极值位置

6.为什么取自然对数(ln)不会改变似然函数的极大值点?
单调性保证极值位置不变​

  • ​ln函数是严格单调递增函数​​:对于任意 x1​>x2​>0,有 lnx1​>lnx2​。因此,原函数 L(θ) 的极大值点必然与对数似然函数 lnL(θ) 的极大值点一致
  • ​数学验证​​:若 L(θ) 在 θ=θ∗ 处取得最大值,则 lnL(θ) 也在 θ=θ∗ 处取得最大值,因为单调递增性不改变极值的位置

7.为什么求导为零的点对应参数的最大值?
导数为零是极值的必要条件​**​

  • ​极值与导数的关系​​:对于可导函数,若某点是极值点(极大或极小),则该点处的一阶导数必然为零, 这是极值存在的必要条件(但非充分条件)
  • ​对数似然函数的极值​​:在最大似然估计中,目标是找到使似然函数最大的参数。通过对数似然函数求导并令导数为零,可找到可能的极值候选点

验证极值的充分条件​**​

  • ​二阶导数检验​​:导数为零的点需通过二阶导数判断是否为极大值。若二阶导数在该点为负,则为极大值点
    例如,正态分布的方差估计中,二阶导数为负,确认该点为极大值
  • ​函数凹凸性假设​​:在大多数统计模型中,对数似然函数是凹函数(如正态分布、逻辑回归),此时导数为零的点即为全局最大值点

. ​​最大似然估计的特殊性​

  • ​单峰性与唯一性​​:最大似然估计通常假设参数空间中存在唯一的极大值点(单峰性),因此导数为零的点即为全局最优解。例如,抛硬币实验中,似然函数关于正面概率 θ 是单峰函数,导数为零时对应唯一解
  • ​统计理论支撑​​:大样本下,最大似然估计量具有渐近正态性,其方差由二阶导数的负倒数决定,进一步验证导数为零点的有效性
posted @ 2025-05-22 19:47  诸葛蛋蛋  阅读(23)  评论(0)    收藏  举报