KDE 简介

假设 \(x_1, x_2, \dots, x_n\) 是来自未知概率密度函数 \(f\) 的独立同分布样本。我们要根据这些样本估计 \(f\)

当样本量\(n\)固定的时候,我们定义出一个\(h_n\),同时从\(f\)中抽取\(n\)个样本,得到估计函数\(\hat{f}_{h_n}(x)\)

KDE 的估计函数 \(\hat{f}_{h_n}(x)\) 定义为:

\[\hat{f}_{h_n}(x) = \frac{1}{nh_n} \sum_{i=1}^{n} K\left(\frac{x - x_i}{h_n}\right) \]

其中:

  • \(n\):样本数量。
  • \(K(\cdot)\):核函数 (Kernel Function)。
  • \(h_n\):带宽 (Bandwidth),也称为平滑参数。

对每一个固定的\(n\),如果我们固定\(x\),那么估计函数就是一个随机变量(每抽取\(n\)个样本就可以得到不同的\(x_1,x_2,...,x_n\)),所以可以算出这个随机变量的均值;如果核函数和\(h_n\)满足一定的性质,那么就可以证明估计函数的一致性,也就是对于任意 \(\epsilon > 0\)和任意\(x\)

\[\lim_{n \to \infty} P(|\hat{f}_n(x) - f(x)| > \epsilon) = 0 \]

直观理解:用那个啥堆沙子,但是其实我觉得也不好理解;直方图能理解的原因是因为频率趋近于概率,堆沙子是什么鬼

posted @ 2026-01-12 10:48  最爱丁珰  阅读(11)  评论(0)    收藏  举报