BGD，SGD与MBGD计算量对比

BGD（批量梯度下降）：每次迭代需要计算所有 m 个样本的梯度并求和，计算量为 O(m)。
SGD（随机梯度下降）：每次迭代只计算1 个样本的梯度，计算量为 O(1)。但完成一个 epoch 需要处理 m 个样本，因此总计算量为 m × O(1) = O(m)。

结论：当 SGD 完成一个 epoch（m 次迭代）时，其总计算量与 BGD 的单次迭代计算量相同（均为 O (m)）。

尽管计算量相同，但两者的实际效率差异显著：

BGD：每个 epoch 仅更新 1 次参数，可能需要多个 epoch 才能收敛（如 10 次），因此总计算量为 10 × O(m)。
SGD：每个样本更新 1 次参数，一个 epoch 内完成 m 次更新。由于高频更新和随机噪声，SGD 可能在1 个 epoch 内就接近最优解，总计算量仅为 O(m)。

示例：
对于 30 万个样本（m=300,000）：

误区 1：“SGD 计算量更小”
实际上，当处理完相同数量的样本时，SGD 和 BGD 的计算量相同（均为 O (m)）。SGD 的优势在于用更少的迭代次数达到相近的精度。
误区 2：“SGD 只需要 1 次迭代”
SGD 通常需要多个 epoch 才能收敛，但由于每个 epoch 内更新频繁，可能在 1 个 epoch 内就取得良好效果。

小批量梯度下降（MBGD）：
每次使用 batch_size 个样本（如 32），平衡计算效率和稳定性。对于 m=300,000 的数据集，MBGD 的每个 epoch 需要 300,000/32 ≈ 9,375 次迭代，计算量仍为 O (m)，但收敛更平滑。
学习率调度：
对 SGD 和 MBGD，推荐使用动态学习率（如指数衰减），避免震荡并加速收敛。

当 SGD 完成一个 epoch（计算 m 次）时，其总计算量与 BGD 的单次迭代相同。但由于 SGD 的高频更新特性，它通常能在更少的 epoch 内达到相近的精度，因此实际训练效率远高于 BGD。在大规模数据场景中，SGD 及其变种（如 MBGD）已成为主流选择。

posted @ 2025-06-14 16:49 有何m不可阅读(38) 评论(0) 收藏举报

刷新页面返回顶部

gongzb