方差的迭代计算公式 - 指南

1️、方差基础公式

给定一组数据 $x1,x2,…,xnx_1, x_2, \dots, x_n$ ，其均值和方差定义如下：

均值：

$\bar{x}_n = \frac{1}{n} \sum_{i=1}^{n} x_i$

方差：

无偏样本方差：
$s_n^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x}_n)^2$

总体方差：
$\sigma_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x}_n)^2$

注意：样本方差比总体方差除以 $n - 1$ ，以消除偏差。

2️、为什么需要迭代公式？

直接计算方差需要存储所有数据，尤其对于大规模数据或流式数据（streaming data），这是不现实的。
迭代公式允许 每来一个新数据 $x_{n+1}$ 时更新均值和方差，无需重新扫描整个数据集。

3️、均值迭代公式

已有 $n$ 个样本均值 $xˉ∗n\bar{x}*n$ ，加入新样本 $x*{n+1}$ 后，新的均值 $xˉn+1\bar{x}_{n+1}$ ：

$\bar{x}_{n+1} = \bar{x}_n + \frac{x_{n+1} - \bar{x}_n}{n+1}$

简单理解：新均值是旧均值加上新数据偏差的 $1/ (n + 1)$ 。

4️、方差迭代公式推导（Welford 算法）

定义当前样本数量 $n$ 的 累计平方差：
$M_{2,n} = \sum_{i=1}^{n} (x_i - \bar{x}_n)^2$
当加入新样本 $x_{n+1}$ ：
- 更新均值：
  $\bar{x}_{n+1} = \bar{x}_n + \frac{x_{n+1} - \bar{x}_n}{n+1}$
- 差值：
  $\delta = x_{n+1} - \bar{x}_n$
  $\delta_2 = x_{n+1} - \bar{x}_{n+1}$
更新累计平方差：
$M_{2,n+1} = M_{2,n} + \delta \cdot \delta_2$
迭代计算方差：

样本方差：
$s_{n+1}^2 = \frac{M_{2,n+1}}{n}$
或无偏样本方差：
$s_{n+1}^2 = \frac{M_{2,n+1}}{n}$

核心思想：每次只用上一轮累计平方差 + 新样本与均值的偏差，保证数值稳定，不容易溢出。

5️、数值稳定性说明

Welford 方法相比直接公式：
$s_n^2 = \frac{1}{n} \sum x_i^2 - \bar{x}_n^2$
优势：

不需要存储所有 $x_i$ ；
避免 平方和减去平方均值 导致的数值精度丢失；
可以实时处理大规模或流式数据。

6️、C++ 实战示例

#include <vector>
  #include <iostream>
    class OnlineVariance {
    private:
    int n = 0;
    double mean = 0.0;
    double M2 = 0.0;  // 累计平方差
    public:
    void addSample(double x) {
    n++;
    double delta = x - mean;
    mean += delta / n;
    double delta2 = x - mean;
    M2 += delta * delta2;
    }
    double getMean() const { return mean; }
    double getVariance() const { return n > 1 ? M2 / (n-1) : 0.0; } // 样本方差
    double getPopulationVariance() const { return n > 0 ? M2 / n : 0.0; } // 总体方差
    };
    int main() {
    std::vector<double> data = {2.0, 4.0, 4.0, 4.0, 5.0, 5.0, 7.0, 9.0};
      OnlineVariance ov;
      for (auto x : data) {
      ov.addSample(x);
      std::cout << "n=" << ov.n << ", mean=" << ov.getMean()
      << ", variance=" << ov.getVariance() << std::endl;
      }
      return 0;
      }

输出示例（部分）：

n=1, mean=2, variance=0
n=2, mean=3, variance=2
n=3, mean=3.33333, variance=2.33333
...

每增加一个数据点，均值和方差都会被实时更新。

7️、总结公式

均值迭代：
$\bar{x}_{n+1} = \bar{x}_n + \frac{x_{n+1}-\bar{x}_n}{n+1}$
累计平方差迭代：
$M_{2,n+1} = M_{2,n} + (x_{n+1}-\bar{x}_n)(x_{n+1}-\bar{x}_{n+1})$
方差：
$s_{n+1}^2 = \frac{M_{2,n+1}}{n} \quad \text{(总体方差)}$
$s_{n+1}^2 = \frac{M_{2,n+1}}{n-1} \quad \text{(样本方差)}$

这种迭代方式适合大数据、流式数据和实时计算，数值稳定且无需存储所有历史数据。

posted @ 2025-12-06 21:59 yangykaifa 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部