依分布收敛的定义细节
摘要:1 定义 依分布收敛的定义是这样的:随机变量序列${X_n}{n=1}^{\infty}\(,若它们的累积分布函数cdf序列\){F_1}{n=1}^{\infty}$,与某个随机变量$X$的cdf \(F\),满足 \[ \lim_{n\to\infty} F_n(x)=F(x) \] 在任意$F
阅读全文
Jensen不等式及其应用
摘要:Jensen不等式的形式有很多种,这里重点关注有关于随机变量期望的形式。 1 Jensen不等式 Jensen不等式:已知函数$\phi: \mathbb{R}\to\mathbb{R}\(为凸函数,则有\)\phi[\text{E}(X)]\leq \text{E}[\phi(X)]$。 有时候,
阅读全文
最小角回归详解
摘要:本文介绍LAR(Least angle regression,最小角回归),由Efron等(2004)提出。这是一种非常有效的求解LASSO的算法,可以得到LASSO的解的路径。 1 算法介绍 我们直接看最基本的LAR算法,假设有$N$个样本,自变量是$p$维的: 先对$X$(\(N\times p
阅读全文
QR分解与线性回归
摘要:1 一元回归与多元回归 任何一本初级水平的计量经济学、统计学或机器学习相关书籍,都会详细推导多元线性线性回归的解,在这里就不再赘述。 我们给出本文用到的一些设定。$y$为$N$维因变量向量,假设$y=X\beta+\epsilon$,如果自变量为$p$维,将$X$排为$N\times (p+1)$矩
阅读全文
Curse of Dimensionality
摘要:1 Curse of dimensionality 我们知道,\(k\)-NN算法是一种非常简单又很有效果的算法,它的核心思想就是局部近似。究其原因,就是因为它可以很好地对条件期望进行近似,一方面它用样本均值代替了期望,另一方面它用给定某个点的邻域代替了该点,结合起来,就是用在邻域内的样本均值,取代
阅读全文
LASSO的解法
摘要:LASSO非常实用,但由于它的惩罚项不可以常规地进行求导,使得很多人以为它无法显式地求出解析解。但其实并不是这样的。 1 单变量情形:软阈值法 1.1 软阈值的分类讨论 将$N$个样本的真实值记为$N$维向量$y$,将$N$个样本的自变量记为$z$,假设我们已经将自变量做过标准化,即$z' \ell
阅读全文
经验分布函数简介
摘要:1 概念 如果我们想知道某个随机变量$X$的分布$F$,这在一般情况下当然是无法准确知道的,但如果我们手上有它的一些独立同分布的样本,可不可以利用这些样本?一个很简单的办法就是,把这些样本的“频率”近似为随机变量的“概率”。 经验分布函数(empirical distribution functio
阅读全文
Hoeffding不等式简介
摘要:1 Hoeffding不等式 Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。 它的思想与Markov不等式有些类似,我们先给出它的形式: Hoeffding不等式:$Y_1,\ldots,Y_n$为独立观测,\(E(Y_i)=0\),\(a_i\leq
阅读全文
正态分布密度函数的系数
摘要:正态分布的密度函数,可以一般化地写为 \[ f(x) = k \exp\left[-\dfrac{1}{2}(x-b)' A (x-b)\right] \] 事实上,如果某个多维随机变量的密度函数可以写成该形式,那么它就服从正态分布。其中$b$是均值,正定矩阵$A$是协方差矩阵的逆,它们共同决定的正
阅读全文
条件期望误差的有限性
摘要:1 CEF error的有限性问题 在回归中,记条件期望函数(conditional expectation function,CEF)为$E[Y|X=x]$,则可将因变量$Y$分解为 \[ Y=E[Y|X=x]+e \] 可记$e=Y-E[Y|X=x]$为条件期望函数误差(CEF error)。
阅读全文
数据标准化
摘要:1 为何需要标准化 有的数据,不同维度的数量级差别较大,导致有的维度会主导整个分析过程。如下图所示: 该图的数据维度$d=30$,样本量$n=40$,上面的图是对原始数据做PCA后,第一个PC在各个维度上的权重的平行坐标图,下面的图则是对数据做标准化之后的情况。可以发现,在原始数据中,第$4$和$2
阅读全文
平行坐标图简介
摘要:高维数据的可视化是一个很大的问题,Inselberg(1985)提出了一种好办法,称为平行坐标图(parallel coordinate plots)。它有竖直的(vertical)和水平的(horizontal)两种画法。 Vertical parallel coordinate plots:对于
阅读全文
工具变量原理
摘要:在做回归时,很多时候会有$\text(x_t \varepsilon_t)\neq 0$的情况,这也意味着不满足外生性条件$\text(\varepsilon|X)=0$,此时的OLS估计量$\hat\beta$就不再满足无偏性,并且随着$n$的变大,它的bias也无法变小。若对此无法理解,请先掌握
阅读全文
方差分解公式
摘要:在有些时候,直接计算随机变量的方差非常麻烦,此时可以用方差分解公式,将方差分解为条件期望的方差加条件方差的期望: \[ \text{Var}(X)=\text{Var}[\text{E}(X|Y)]+\text{E}[\text{Var}(X|Y)] \] 证明非常简单,注意到 \[ \begin{
阅读全文
行列式的求导
摘要:在应用中,经常会碰到需要对某个矩阵的行列式进行求导的情况。而行列式的计算方法比较复杂,如果将它展开成后计算,会比较麻烦,因此最好直接记住一些结论。 本文以计算$\dfrac{\partial |A|}{\partial A}\(和\)\dfrac{\partial \ln |A|}{\partial
阅读全文
几乎必然收敛的含义
摘要:1 几乎必然收敛的概念 几乎必然收敛(almost sure convergence),又叫以概率1收敛(convergence with probability 1),定义为:随机变量序列${X_n}$满足 \[ \mathbf{P}(\lim_{n\to \infty} X_n\to X)=1
阅读全文
正态分布的条件分布与边缘分布
摘要:本文总结多元正态分布的条件分布与边缘分布,证明不难,但都比较繁琐,故不做详细证明,有兴趣可以参考Pattern Recognition and Machine Learningy一书。 1 正态分布的条件分布 对于联合正态分布变量$x\sim N(\mu,\Sigma)\(,定义精度矩阵(the p
阅读全文
多元正态分布初识
摘要:在本科阶段的教材中,往往会有多元正态分布的公式出现,但课堂上都不会重点讲解,而在研究生入学考试中也基本不会考。但在实际应用中,多元的情况却非常常见。 本文通过对多元正态分布的公式进行拆解,来正式认识一下它。 1 多元正态分布公式 对于$D$维正态分布变量$x$,直接上它的密度公式: \[ \math
阅读全文
利用矩母函数求独立随机变量之和的分布
摘要:在求独立的随机变量之和的分布时,可用矩母函数法。 1 矩母函数法 定理 已知$X_1,\ldots,X_n$为独立的随机变量,各种的矩母函数为$M_1,\ldots,M_n$,$a_1,\ldots,a_n$为常数,则$Y=\sum_^a_i X_i$的矩母函数为 \[ M_Y(t)=\text{E
阅读全文
Cauchy-Schwarz不等式、Hölder不等式与Minkowski不等式
摘要:本文介绍几个常用的与期望有关的不等式。 1 Cauchy–Schwarz不等式 Cauchy–Schwarz不等式有许多形式,这里只介绍它的期望函数的形式。 Cauchy–Schwarz不等式: \[ [\text{E}(XY)]^2 \leq \text{E}(X^2)\text{E}(Y^2)
阅读全文