摘要: Task5 神经网络设计技巧 有一个崎岖不平误差曲面 某时刻损失函数不随参数更新而下降,怎么回事? 猜想:梯度(导数)到达0了? 卡在局部最低 卡在平缓的马鞍处 分批次训练,批次的大小至关重要,不同规模的批次拥有不同的优缺点 动量思想:每次下降的方向不仅是与梯度相反的方向,并且考虑进去上一步的方向 阅读全文
posted @ 2021-09-21 18:55 shanqiu24 阅读(51) 评论(0) 推荐(0)