batch size的设定
这两天在调参的时候,模型在batch_size=32时收敛得很好,performance也不错。但是发现GPU显存利用率很低,于是设置成batch_size=256,结果显卡利用率高了,模型不收敛。
batch_size小:一个epoch需要的时间长;可能出现训练不稳定(因为最后计算出的loss是对一个batch做均值,batch_size太小异常数据的影响就更大);模型训练更充分
batch_size大:单个epoch训练时间减少;模型可能训练不充分导致整个训练epoch数目可能需要增加。
所以调参是门学问啊,菜鸟要加油

浙公网安备 33010602011771号