摘要:
优化算法——SGD、Momentum、Adagrad、RMSprop、Adam、AdamW 统一数学表达:设损失函数为\(\mathcal{L}(\theta)\),学习率为\(\eta\)。 每次迭代仅使用一个随机小批量(mini-batch)数据计算梯度。 从训练集中采样包含小批量\(m\)个样 阅读全文
posted @ 2025-03-28 11:49
skeinz
阅读(30)
评论(0)
推荐(0)
浙公网安备 33010602011771号