摘要: 梯度累积是一种增大训练时 batch size的技术,在本地使用 micro-batch 多次进行正向和反向传播积累梯度后,再进行梯度规约和优化器更新,这是用来均摊通信成本的一种常用策略。本文通过几个框架/库的实现对比,让大家对这个技术有进一步的了解。 阅读全文
posted @ 2021-08-26 08:27 罗西的思考 阅读(3057) 评论(0) 推荐(2)