摘要: 1. 计算量的理论对比 BGD(批量梯度下降):每次迭代需要计算所有 m 个样本的梯度并求和,计算量为 O(m)。 SGD(随机梯度下降):每次迭代只计算1 个样本的梯度,计算量为 O(1)。但完成一个 epoch 需要处理 m 个样本,因此总计算量为 m × O(1) = O(m)。 结论:当 S 阅读全文
posted @ 2025-06-14 16:49 有何m不可 阅读(37) 评论(0) 推荐(0)