摘要:
大模型常用的激活函数有哪些? ReLU(Rectified Linear Unit):一种简单的激活函数,可以解决梯度消失问题,加快训练速度。 GeLU(Gaussian Error Linear Unit):一种改进的ReLU函数,可以提供更好的性能和泛化能力 Swish:一种自门控激活函数,可以 阅读全文
posted @ 2025-08-09 11:21
喝茶看猴戏
阅读(36)
评论(0)
推荐(0)
摘要:
💡如果想要在某个模型基础上做全参数微调,究竟需要多少显存? 要确定全参数微调所需的显存量,需要考虑以下几个因素: 1.模型的大小:模型的大小是指模型参数的数量。 2.批量大小:批量大小是指在每次训练迭代中一次性输入到模型中的样本数量。较大的批量大小可以提高训练的效率,但也需要更多的显存 3.训练数 阅读全文
posted @ 2025-08-09 11:18
喝茶看猴戏
阅读(16)
评论(0)
推荐(0)

浙公网安备 33010602011771号