11.4.4 随机梯度和有限样本

这段文字主要讨论 随机梯度下降（SGD）中不同的数据采样方式及其影响，具体涉及以下几点：

有替换采样：每次从数据集中随机抽取一个样本后，将其放回原数据集。这意味着同一样本可能被多次选中。
无替换采样：每次从数据集中抽取一个样本后不再放回，直到所有样本都被遍历一次（即一个完整的“epoch”）。
文中指出，实践中默认使用无替换采样。

选择某一样本至少一次的概率（有替换采样）：
[
P(\text{选择样本} i) = 1 - (1 - 1/n)^n \approx 1 - e^{-1} \approx 0.63
]
这意味着即使有替换采样，仍有约 37% 的样本可能未被选中。
选择某一样本恰好一次的概率（无替换采样）：
[
P(\text{恰好一次}) = \frac{1}{n} \left(1 - \frac{1}{n}\right)^n \approx e^{-1} \approx 0.37
]
这表明无替换采样能更均匀地利用数据。

有替换采样：梯度估计的方差较高，可能导致收敛速度慢或不稳定。
无替换采样：方差较低，训练更稳定，且能充分利用所有数据。
因此，实际训练中通常以无替换的方式遍历数据，并通过每个 epoch 随机打乱数据顺序来引入随机性。

这段话的核心观点是：
在随机梯度下降中，无替换采样（默认方式）优于有替换采样，因为它在保证随机性的同时降低了方差，提高了数据利用效率。此外，每个 epoch 中随机打乱数据顺序能进一步平衡模型的泛化能力和稳定性。

在 有替换采样 中，方差增加的原因可以通过以下分析理解：

关键影响：
有替换采样的样本分布更不均匀，导致梯度估计的波动性更大。

假设数据集中有 (n) 个样本，梯度估计的方差由以下公式决定：

有替换采样 的方差：
[
\text{Var}_{\text{有替换}} = \frac{1}{n} \text{Var}(g_i)
]
其中 (g_i) 是单个样本的梯度。
无替换采样 的方差：
[
\text{Var}_{\text{无替换}} = \left(1 - \frac{1}{n}\right) \text{Var}(g_i)
]

结论：
无替换采样的方差比有替换采样小 (\frac{1}{n}) 倍，即：
[
\text{Var}{\text{无替换}} = \left(1 - \frac{1}{n}\right) \text{Var}{\text{有替换}}
]

有替换采样 时，每个 epoch 中部分样本被重复选中（概率约 63%），另一部分未被选中（概率约 37%）。
这导致每次迭代的样本集差异较大，梯度估计的波动性增强，方差上升。
无替换采样 保证每个样本都被均匀使用，梯度估计更稳定，方差更低。

假设数据集有 3 个样本：(A, B, C)。

方差增加的根源在于：

因此，在随机梯度下降中，无替换采样是默认选择，以平衡随机性与稳定性。

posted @ 2025-03-24 14:12 最爱丁珰阅读(46) 评论(0) 收藏举报

刷新页面返回顶部

最爱丁珰