摘要: 优化算法——SGD、Momentum、Adagrad、RMSprop、Adam、AdamW 统一数学表达:设损失函数为\(\mathcal{L}(\theta)\),学习率为\(\eta\)。 每次迭代仅使用一个随机小批量(mini-batch)数据计算梯度。 从训练集中采样包含小批量\(m\)个样 阅读全文