概率论与数理统计

第一章 随机事件与概率

我们没法确定抛一个硬币后是正面还是反面,这是一个随机现象。

抛多次硬币后,正面和反面数量相近,这是一个神奇的统计规律。

随机现象可以总结出两个性质:随机性,必然性。单次的随机性和统计的必然性。

1.1 随机事件及其运算

为了研究这个神奇的数学规律,把抛一次硬币称为一次试验 E。

试验的特点就是 可重复,多结果,不确定。

1.1.1 样本空间与随机事件

将试验的结果称为样本空间 \(\Omega\),某个具体的结果是 \(\omega\)。例如抛硬币试验的 \(\Omega=\{\text{up},\text{down}\},\omega_1=\text{up}\)

样本空间按照集合大小分为有限,可列和不可列的。

抛骰子这个试验中 \(\Omega=\{1,2,3,4,5,6\}\),我们想研究某个子集 \(A=\{2,4,6\}\) 表示投到偶数,这个 \(A\) 就被称为一个随机事件。

有一些事件较为特殊,有基本事件,必然事件,不可能事件等称呼。

1.1.2 随机事件的关系与运算

事件是一个集合,运算也就是集合运算,例如交,并,差,取反等。

关系也是集合的关系,例如包含,互斥等。

1.1.3 \(\sigma\)-代数

\(2^\Omega\) 表示 \(\Omega\) 的幂集,例如 \(\Omega=\{0,1\}\implies 2^\Omega=\{\emptyset,\{0\},\{1\},\{0,1\}\}\)

换句话说,就是所有随机事件的集合。

\(\Sigma\subset 2^\Omega\)(换句话说,就是一些随机事件的集合),且满足三个条件:

  • \(\Omega\in\Sigma\),必然事件属于 \(\Sigma\)
  • \(A\in\Sigma\implies \overline{A}\in\Sigma\),对立事件成对出现
  • \(A_i\in\Sigma(i=1,\dots)\implies \cup_i \ A_i\in \Sigma\),事件的并也出现

\(\Sigma\)\(\Omega\)\(\sigma\)-代数,\(\Sigma\) 中的元素称为可测集,\((\Omega,\Sigma)\) 称为可测空间。

\(\Sigma\) 通过上面三条性质,还可以推理出 \(\emptyset\in\Sigma\) 和对于交运算封闭的性质。

好像不考,先跳过了。

1.2 古典概型

\(\Omega=\{\omega_1,\cdots,\omega_n\}\) 满足 \(P(\{\omega_i\})=P(\{\omega_j\})\)

比如投硬币就是古典概型。符合古典概型的问题,难点主要在计数,各种组合计数。

1.3 几何概型

样本空间无限可测,无限指样本点不可列,可测指由响应的几何测度表示(比如长度,面积等)。

基本事件等可能性,这里想说的是,任意两个“同样大小”的区域(测度相同)发生的概率相同。

贝特朗奇论:在半径为 1 的圆内随机选一条弦,长度超过根号 3 的概率是多少?

对于等可能性的不同解释,会导致这个概率数值不一样:

  • 随机选择两个点确定一条弦
  • 在某条直径上随机选择一个点作为弦的中点
  • 在整个圆中随机选择一个点作为弦的重点

1.4 概率公理化

贝特朗奇论说明了“等可能性”的说法并不那么牢靠,因此需要引入更加严谨的数学定义。

1.4.2 概率公理化

概率 \(P:\Sigma\to \mathbb{R}\) 是一个函数,满足:

  • 非负性:\(P(A)\ge 0\)
  • 规范性:\(P(\Omega)=1\)
  • 可列可加性:可列个互不相容的事件的并的概率为每个事件概率之和

Union Bound:

\[P(A_1\cup\cdots,A_n)\le \sum_{i=1}^n P(A_i) \]

1.5 组合计数

难的不考,跳过

第二章 条件概率与独立性

2.1 条件概率

\(P(A)>0\) 可以定义条件概率 \(P(B|A)=\frac{P(AB)}{P(A)}\)

条件概率的本质是缩小了有效的样本空间,毕竟原来的概率可以视为是在 \(\Omega\) 条件下的。

2.2 全概率公式和贝叶斯公式

2.2.2 贝叶斯公式

\[P(A|B)=\frac{P(A)P(B|A)}{P(B)} \]

这个公式有一些深刻的理解方法。

从结果找成因

我们都知道,感冒(事件A)很可能就会咳嗽事件(B)。

那么如果现在你咳嗽了,有多大概率感冒呢?求 P(A|B)。

从先验概率修正到后验经验

这是贝叶斯最深刻的内涵,它不仅是一个公式,更是一种学习观。

后验概率 ∝ 先验概率 × 似然度

在这里我们应当把公式写成:

\[P(A|B)=P(A)\frac{P(B|A)}{P(B)} \]

就是比如A表示一开始的认知中,某人是小偷的概率,而经验B是证明他没偷东西的证据,那么 P(A|B) 就是结合了证据 B 之后的认知中,那人是小偷的概率。

2.3 事件独立性

\(P(AB)=P(A)P(B)\) 则称为独立。

如果还有 \(P(A)P(B)>0\),结合条件概率公式就有 \(P(A|B)=P(A)\)

条件独立 \(P(AB|C)=P(A|C)\),其实就是缩小了样本空间,因为原来的也能写成 \(P(AB|\Omega)=P(A|\Omega)P(B|\Omega)\)

2.3.2 多个事件的独立性

小概率原理,小概率 p 很多次不发生的概率是 \((1-p)^n\) 会很小。

第三章 离散型随机变量

期望和方差。

若 g 为凸函数则:\(g(E(X))\le E(g(x))\)

方差

Bahatia-Davis 不等式,对随机变量 \(X\in[a,b]\),有:

\[Var(X)\le (b-E[x])(E[x]-a)\le \frac{(b-a)^2}{4} \]

显然,固定 E[x] 后,想要最大化方差就是让数值都挤在 a,b 两头(同时维持 E[x])正确。

根据杠杆原理:

\[\begin{aligned} & num_1(b-E[x])=num_2(E[x]-a)\\ & \frac{1}{num_1+num_2}((b-E[x])^2num_1+(E[x]-a)^2num_2)=(b-E[x])(E[x]-a) \end{aligned} \]

常用离散型随机变量

3.4.2 二项分布

\(X\sim B(n,p)\)

\(P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}\)

\(E[x]=np,Var(X)=n*Var(X_1)=np(1-p)\)。有趣的是,\(Var(X_1)\) 刚好能用刚才的 Bahatia-Davis 不等式来计算。

\(X\sim B(n_1,p),Y\sim B(n_2,p)\implies X+Y\sim B(n_1+n_2,p)\)

3.4.3 泊松分布

泊松分布是二项分布的极限版本。

比如说我想知道一本书有 10000 字,然后我知道前 5000 个字中错别字有 \(\lambda\) 个,我们可以近似估计一个字是错别字的概率 \(p=\lambda/5000\),然后再通过二项分布就可以估计后 5000 个字有多少个错别字了。

但是这样的计算量太大了,于是我们笼统将前 5000 字认为是一个单位长度,\(\lambda\) 表示一个单位长度预计有这么多错别字,设 \(n\) 表示一个单位长度的字数,\(p=\lambda/n\),令 \(n\to\inf\) 得到一个新的错别字数量分布,这个新的分布就是泊松分布,因为原来的 5000 已经很大了,所以新的分布和二项分布的结果其实差不多。

\(X\sim P(\lambda)\)

\(P(X=k)\frac{\lambda^k}{k!}e^{-\lambda}\)

\(E[X]=Var(X)=\lambda\),这里很好理解直接使用二项分布的公式即可 \(\lambda=np=np(1-p)\),因为 \(n\to \inf,p\to 0\)

\(X\sim P(\lambda_1),Y\sim P(\lambda_2)\implies X+Y\sim P(\lambda_1+\lambda_2)\)

3.4.4 几何分布

\(X\sim G(p)\)

\(P(X=k)=(1-p)^{k-1}p\)

多重伯努利试验第一次成功的次数分布。具有无记忆性,就是你每次投硬币的结果和之前的结果全都无关。

\(E[X]=1/p,Var(X)=(1-p)/p^2\)

第四章 连续型随机变量

4.1 分布函数

随机变量的样本空间为 \(\mathbb{R}\),函数:

\[F(x)=P(X\le x) \]

称为 X 的分布函数。

分布函数具有三条性质:

  • 单调性,用非负性+可列可加性证明
  • 规范性,用连续性证明
  • 右连续性,也是用连续性

连续性:若集合 \(A_1\subset A_2\subset\dots\),则:

\[P(\lim A_n)=\lim P(A_n) \]

这里 \(\lim A_n=\cup\ A_i\)

4.2 概率密度函数

若存在 \(f\) 满足则为概率密度函数:

\[F(x)=\int_{-\infty}^x f(t)\mathrm{d}t \]

概率密度函数应当被视为一个密度,量纲是 概率/长度,而 概率 数值。

期望要求

\[\int_{-\infty}^{+\infty}|t|f(t)\mathrm{d}t \]

是可积的,不然期望不存在。

4.4 常用连续型随机变量

4.4.1 均匀分布

\(X\sim U(a,b)\)

\(f(x)=1/(b-a)\)

\(E[X]=(a+b)/2,Var(X)=(b-a)^2/12\)

4.4.2 指数分布

泊松过程就是说,在某个单位的度量(例如1分钟)内,某个事件发生的期望次数为 \(\lambda\),泊松分布就是描述在另一个同样单位的度量内发生次数的分布。

而指数分布是在一个单位的度量内两次发生的间隔(可以近似看成是几何分布的无限版,所以也有无记忆性)

密度函数 \(f(x)=\lambda e^{-\lambda x}\),分布函数 \(F(x)=1-e^{-\lambda x}\)

统计量和几何分布相对应:\(E[X]=1/\lambda,Var(X)=1/\lambda^2\)

\(X\sim e(\alpha),Y\sim e(\beta)\implies \min(X,Y)\sim e(\alpha+\beta)\),物理含义就是把两个泊松过程叠加。

4.4.3 正态分布

\(X\sim N(\mu,\sigma^2)\) 统计概率最重要的分布

\[f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

\(\mu=0,\sigma=1\) 服从标准正态分布。

\(X=(Y-\mu)/\sigma\sim N(0,1)\iff Y=\sigma X+\mu\sim N(\mu,\sigma^2)\)

这个证明挺有趣的,通过将积分平方后在二维平面的积分进行极坐标变换从而间接证明规范性。

\(X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)\implies X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\)

协方差为 0 等价于独立。

4.5 随机变量的函数的分布

我们知道 X 和函数 g,那么 g(X) 的分布和统计量如何呢?

针对连续型随机变量,

\[F_Y(y)=P(Y\le y)=P(g(X)\le y)=\int_{g(x)\le y}f_X(x)\mathrm{d}x \]

除此之外,确实有一个直接的定理来计算:

设 g(x) 处处可导且严格单调,令其反函数 x=g^{-1}(y)=h(y),则密度函数有:

\[f_Y(y)=f_X(h(y))|h'(y)| \]

理解方式:x->g(x),就是说 \(f_X(x)\) 要变成 \(Y\) 的份额要经过一个缩放,这个缩放取决于 x 和 y 的相对增长速率。比如 x 增加 1,y 增加 2,那么就密度而言,一份 x 可能对应多份 y,\(f_X(x)\) 就被稀释了;反之,如果多份 x 对应一份 y,\(f_X(x)\) 就被浓缩了。所以要乘以 |h'(y)| 这个就是稀释或者浓缩的倍数。

比如具体来说 \(g(x)=2x\) 说明被稀释了,那么 \(h'(y)=1/2\) 就会变小。

设 X 的分布函数 \(F_X(x)\) 是严格单调的连续函数,那么 \(Y=F_X(X)\sim U(0,1)\),怎么有这么难以置信的结论!!

第五章 多维随机变量

5.1 二维联合分布函数

\(F(x,y)=P(X\le x,Y\le y)\)

分布函数的特点,除了单调性,规范性,有连续性之外,还有一个特点:

  • 对于 \(x_1<x_2,y_1<y_2\) 满足:\(F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)\ge 0\)

边缘分布函数 \(F_X(x)=P(X\le x)=F(x,+\infty)\),就是让某一维完全解放。

5.2 多维离散型随机向量

\(p_{ij}=P(X=x_i,Y=y_j)\)\(P(X=x_i)=\sum_{j=1}^{\infty}p_{ij}=p_{i\cdot}\)

二项分布进化为多项分布:某次试验结果有 \(m\) 种,概率为 \(p_1,\cdots,p_m\) 满足 \(\mathbf{1}^\top p=1\)

\(X_i\) 表示第 \(i\) 种结果的出现次数,则

\[P(X_1=x_1,\cdots,X_m=x_m)=\binom{n}{x_1,\cdots,x_m}\prod_{i=1}^m p_i^{x_i} \]

称随机向量 \((X_1,\cdots,X_m)\sim M(n,p_1,\cdots,p_m)\) 满足多项分布。

多项分布的边缘分布是二项分布 \(X_i\sim B(n,p_i)\)

5.3 连续型随机向量

密度函数满足:

\[F(x,y)=\int_{-\infty}^x\int_{-\infty}^y f(u,v)\mathrm{d}u\mathrm{d}v \]

密度函数的非负性和规范性和一维一致。某个事件的概率就是对应区域上的密度函数的积分。

\[f(x,y)=\frac{\partial^2 F(x,y)}{\partial X\partial Y} \]

边缘密度函数定义类似上面,将某一维完全解放。

常用二维连续分布

区域 \(G\) 的均匀分布 \(f(x,y)=1/A_G\)

高维正态分布公式

\[f(x)=(2\pi)^{-n/2}|\Sigma|^{-1/2}\exp(-\frac{1}{2}(x-\mu)^\top \Sigma^{-1}(x-\mu)) \]

二维正态分布 \(N(\mu_x,\mu_y,\sigma_x^2,\sigma_y^2,\rho)\),展开式自己去书上看。

\((X,Y)\) 服从二维正态分布的情况下,\(X,Y\) 独立当且仅当 \(Cov(X,Y)=0\)

正态分布的边缘分布还是正态分布。

5.4 随机变量的独立性

\(F(x,y)=F(x)F(y)\)

5.5 条件分布

随机事件有条件概率,随机变量也有条件分布。

离散型很简单。

5.5.2 连续型随机变量的条件分布

\(f_Y(y)>0\)\(f_{X|Y}(x|y)=f(x,y)/f_Y(y)\),即在 \(Y=y\) 的条件下 \(X\) 的密度函数。

虽然 \(Y=y\) 是一个测度为 0 区域的,但这是在二维空间的视角下的绝对概率;但是如果我们仅仅把视角放在 \(Y=y\) 这个一维空间上,就可以认为 \(P(Y=y)=1\) 是全部的世界,然后对 \(f(\cdot,y)\) 做一个归一化操作,就是除以 \(f_Y(y)\) 就可以得到条件密度函数。

条件分布函数是条件密度函数的积分。

5.6 多维随机变量函数的分布

5.6.1 二维离散型随机向量的函数

\(Z=X+Y\)\(Z\) 的分布列是一个卷积

5.6.2 二维连续型随机向量函数

\(Z=X+Y\)\(Z\) 的密度函数是一个卷积

\(Z=XY\)\(Z\) 的密度函数也有说法:

\[f_{XY}(z)=\int_{-\infty}^{+\infty}\frac{1}{|x|}f(x,\frac{z}{x})dx \]

最大值和最小值的分布。一般就是用容斥原理。

比如求最大值分布,那么 \(F_Y(y)=\prod_i F_{X_i}(y)\),求最小值就是 \(F_Y(y)=1-\prod_i (1-F_{X_i}(y))\)

第六章 多维随机向量的数字特征

柯西-施瓦茨不等式

\[|E[XY]|\le \sqrt{E[X^2]E[Y^2]} \]

这里可能蕴含着一些数学道理,所以我问了问 ai:

Q:我知道 Cov(X,Y) 可以作为一个内积运算,但是这里的 E[XY] 也可以吗?因为我感觉柯西-施瓦茨不等式可以认为只在内积空间上有效,所有符合柯西不等式的形式种都隐藏着一个内积空间?

A:你太敏锐了!没错,你的直觉精准地抓住了概率论通向泛函分析的“秘密入口”。

你猜对了:每一处柯西-施瓦茨不等式的背后,确实都站着一个内积空间。

在概率论里,我们研究的这套体系叫做 \(L^2\) 空间。我来帮你把这几个概念的层次剥开,看看它们是怎么统一的。

1. \(E[XY]\)\(Cov(X,Y)\) 更接近内积的本质

首先回答你的第一个核心疑问:\(E[XY]\) 当然可以作为内积。事实上,在严格的数学构建中,\(E[XY]\) 才是最原始、最标准的内积,而 \(Cov(X,Y)\) 只是它在一个特定子空间上的应用。

我们来看内积(Inner Product)必须满足的三大特征,并用 \(E[XY]\) 来验证:

  1. 对称性\(\langle X, Y \rangle = \langle Y, X \rangle\)。显然,\(E[XY] = E[YX]\)
  2. 线性\(\langle aX+bZ, Y \rangle = a\langle X, Y \rangle + b\langle Z, Y \rangle\)。利用期望的线性性质,这也是妥妥的。
  3. 正定性\(\langle X, X \rangle \ge 0\),且只有当 \(X=0\)\(\langle X, X \rangle = 0\)
    • \(E[X^2] \ge 0\) 显然成立。
    • 唯一的小插曲:如果 \(E[X^2]=0\),只能说明 \(X=0\) 几乎处处成立(a.s.)。所以数学家们约定:把所有“长得几乎一样”的随机变量看成同一个“点”。

所以,\(E[XY]\) 就是随机变量空间里的内积。 这个空间被称作 \(L^2(\Omega, \mathcal{F}, P)\),它是概率论中最迷人的希尔伯特空间(Hilbert Space)


2. 为什么你觉得 \(Cov(X,Y)\) 才是内积?

你的这种感觉来源于:我们在统计学里太喜欢“去中心化”了。

  • 如果我们限制所有的随机变量必须期望为 0(即 \(E[X]=0, E[Y]=0\)),那么你会惊奇地发现:

    \[Cov(X, Y) = E[XY] - E[X]E[Y] = E[XY] \]

  • 也就是说:协方差 \(Cov(X, Y)\) 本质上是两个“中心化后的随机变量”的内积。

这就像在几何里,如果你把所有向量的起点都强行挪到原点,那么向量的点积表现出来的就是协方差。


3. “影子空间”:柯西-施瓦茨的通用模板

你说“所有符合这种形式的都隐藏着一个内积空间”,这是典型的数学美感理解。我们可以建立一个万能模板

只要有一个运算 \(\langle \cdot, \cdot \rangle\) 满足上述内积三大律,那么在这个空间里,一定满足:

\[\langle u, v \rangle^2 \le \langle u, u \rangle \cdot \langle v, v \rangle \]

  • 在向量几何里:这叫点积不等式。
  • 在函数分析里\(\left( \int f(x)g(x)dx \right)^2 \le \int f^2(x)dx \int g^2(x)dx\)(这是连续型随机变量期望形式的本质)。
  • 在级数里\((\sum a_i b_i)^2 \le (\sum a_i^2)(\sum b_i^2)\)(这是离散型随机变量期望形式的本质)。

4. 这对你考试(以及未来理解数学)有什么启发?

  1. 方差就是“长度的平方”:当你看到 \(Var(X) = E[X^2] - (E[X])^2\) 时,你可以理解为:向量 \(X\) 的长度平方,减去它在“全 1 常数向量”方向上投影的长度平方,剩下的就是它的波动长度
  2. 相关系数就是“余弦值”\(\rho = \frac{Cov(X,Y)}{\sigma_X \sigma_Y}\) 就是两个变量去掉直流分量(期望)后,在波动空间里的夹角。
  3. 独立 = 正交:如果 \(X, Y\) 独立且期望为 0,那么 \(E[XY]=0\)。在 \(L^2\) 空间里,这代表它们是垂直(正交)的。垂直意味着一个人的变化方向里,完全没有另一个人的影子。

老师的一句嘱托:
你现在的这种“空间化”思维非常高端。在概率论的大题里,当你遇到复杂的期望公式化简时,试着在心里把它看成向量的长度和夹角,很多繁琐的 \(\Sigma\)\(\int\) 就会变成简单的几何投影。

你会发现,概率论不再是算数字的游戏,而是一场在高维空间里的舞蹈。 你对这种视角有共鸣吗?


\(X\)\(Y\) 相互独立,那么 \(Var(X+Y)=Var(X)+Var(Y)\)

6.2 协方差

随机变量的期望和方差没法刻画不同变量的统计信息,使用协方差可以来描述 X 和 Y 之间的相互关系

\(Cov(X,Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]\),我们知道 \(E[XY]\) 就是刻画希尔伯特空间的一个内积,而这个协方差是在去中心化之后,再使用这个内积。

线性性:\(Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)\),从而得到:

\[Var(\sum X_i)=\sum Var(X_i)+\sum_{i\not=j}Cov(X_i,X_j) \]

若 X,Y 独立那么协方差为 0.

不等式 \(Cov(X,Y)\le \sqrt{Var(X)Var(Y)}\) 就直接用柯西-施瓦茨不等式就行了。

\((X,Y)\sim N(\mu_x,\mu_y,\sigma_x^2,\sigma_y^2,\rho)\implies \rho\sigma_x\sigma_y=Cov(X,Y)\),这也说明了二维正态分布中,独立意味着协方差=0

\(X_1,\cdots,X_n\) 相互独立且服从方差为 \(\sigma^2\) 的正态分布,则均值 \(\overline X\)\(\overline X-X_1\) 独立。这是一个很有趣的问题!

我们不妨假设 \(X_i\sim N(0,1)\) 方便讨论。然后先计算这个概率密度函数,发现这个密度值仅仅与 \(\sum x_i^2\) 有关。想象成一个 \(n\) 维空间,每个点上有密度值,那么这个空间无论如何旋转,密度值都是不变的。

现在我们的 \(n\) 维空间的坐标轴就是 \(X_1,\cdots,X_n\),此时我们进行一件伟大的事情,旋转然后使得第一个坐标轴指向 \(\frac{1}{\sqrt n}\mathrm{1}\) 这个向量。

这个旋转,根据我们的结论,每个点在两个坐标体系下的密度值是一样的,因此做一个双射,将某个点在两个坐标体系下的坐标绑定起来。无论在那个坐标系下随机,都等价于在另一个坐标系下进行了随机。

然后我们真正开始试验,在原始坐标系下产生了 \(X_1,\cdots,X_n\),对应到新坐标系下的第一维 \(X_1'=\sqrt n\ \overline{X}\);然后把视角切换到新坐标系下,相当于第一维随机值确定,但是其它维的随机值还没有确定,以此就证明了独立性。

ai 说这是一个海尔默特变换。不得不说真的很巧妙。

6.3 相关系数

\(\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}\),独立说明不相关,但反过来不一定。

6.4 条件期望

我们知道条件的本质就是缩小样本空间,所以条件期望就是在小样本空间中的期望。

\[E[X|Y=y]=\int_{-\infty}^{+\infty}xf_{X|Y}(x|y)\mathrm{d}x \]

称为 \(Y=y\) 条件下 \(X\) 的条件期望。

通过计算期望计算条件期望,离散版本很熟悉了,连续版本:

\[E[X]=E_Y[E[X|Y]]=\int_{-\infty}^{+\infty}E[X|Y=y]f_Y(y)\mathbf{d}y \]

\(E_Y\) 表示 \(Y\) 是观察 \(Y\) 对于内部被求期望函数的值的影响。

对于随机变量 \((X,Y)\) 和任意函数 \(g(x)\)

\[E[(Y-g(X))^2]\ge E[(Y-E[Y|X])^2] \]

这是一个回归问题,而这个不等式想说 \(g(X)=E[Y|X]\) 是最优的。

这里的 \(g(X),E[Y|X]\) 记号表示当 \(X\) 的随机结果出来之后再把这个值填到 'X' 的位置。这个证明其实跟没有 X 是一样的,\(E[(Y-g)^2]\ge E[(Y-E[Y])^2]\)

6.5 多维正态分布

不考,跳过

posted @ 2026-01-01 16:51  哼唧昂叽  阅读(1)  评论(0)    收藏  举报