摘要:
loss变小梯度反而没有变小。 背景sigmoid(wx+b)的二分类实验,损失函数为平方损失。 实验一:直接训练发现loss减少导致梯度减少。看代码1: 实验二:在wx+b后加上BN层梯loss减少梯度减少。看代码2: 代码1: from enum import auto from scipy.i 阅读全文
摘要:
背景二分类问题,最后一层的输出函数为sigmoid函数。随着训练是否会出现梯度衰减的情况。 训练时模型为了降低损失函数,会尽可能提高正类的置信度降低负类的置信度。 结果: 并未发现正常训练导致的梯度衰减。 代码: from enum import auto from scipy.io import 阅读全文
摘要:
不管用。因为学习率乘以梯度是步长,而梯度衰减返回的梯度是0所以调大学习率不管用。 from enum import auto from scipy.io import loadmat import numpy as np import torch import torch.utils.data as 阅读全文
摘要:
论文:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift In practice, the saturation problem and the resulting 阅读全文