2025 年 6月 14 日随笔档案 - 有何m不可

2025年6月14日

摘要： 1. 计算量的理论对比 BGD（批量梯度下降）：每次迭代需要计算所有 m 个样本的梯度并求和，计算量为 O(m)。 SGD（随机梯度下降）：每次迭代只计算1 个样本的梯度，计算量为 O(1)。但完成一个 epoch 需要处理 m 个样本，因此总计算量为 m × O(1) = O(m)。结论：当 S 阅读全文

posted @ 2025-06-14 16:49 有何m不可阅读(53) 评论(0) 推荐(0)

gongzb

公告