batch size的设定

这两天在调参的时候，模型在batch_size=32时收敛得很好，performance也不错。但是发现GPU显存利用率很低，于是设置成batch_size=256，结果显卡利用率高了，模型不收敛。

batch_size小：一个epoch需要的时间长；可能出现训练不稳定（因为最后计算出的loss是对一个batch做均值，batch_size太小异常数据的影响就更大）；模型训练更充分

batch_size大：单个epoch训练时间减少；模型可能训练不充分导致整个训练epoch数目可能需要增加。