摘要: 动量是一个能够对抗鞍点和局部最小值的技术。 下面我们来看更新梯度的方法。首先选取一个初始值theta0,计算Loss在theta0处的梯度g0,然后根据公式 teata1=teta0-aita*g0,得到的theta1就是更新后的参数。 引入动量后的参数更新,不仅要考虑当前的梯度,还要考虑之前所有的 阅读全文
posted @ 2021-09-11 16:19 奋斗的小仔 阅读(498) 评论(0) 推荐(0)
摘要: 下面是李宏毅老师总结的表格。小批次和大批从中的这个大和小的概念指的是一个批次中数据个数的多少。 下面内容是对这个表格的解释。 ①在无并行处理的情况下,小批次的数据处理的更快,大批次的数据处理地慢一些(处理完一次后就进行一次参数的更新)。 ②GPU具有并行处理数据的能力,在并行处理的情况下,小批次数据 阅读全文
posted @ 2021-09-11 15:57 奋斗的小仔 阅读(371) 评论(0) 推荐(0)
摘要: 在机器学习中,我们会将数据集分成很多个批次来训练。每次抛出一个批次的数据来计算损失函数,再根据损失函数计算参数的梯度。 再根据梯度来更新参数。然后数据加载器会接着抛出下一个批次的数据来计算损失函数,。。。 如下图所示,起初随机选择一个参数的初值theta0。损失函数L1是参数theta0的表达式,根 阅读全文
posted @ 2021-09-11 13:32 奋斗的小仔 阅读(1815) 评论(0) 推荐(0)