摘要: lora的各种变体: lora+:对A(靠近输入端)和B(靠近输出端)设置不同的学习率以加速收敛,对B的学习率通常是A的4到16倍,这是因为近输出层的梯度更加稳定,近输入层的梯度相对不稳定,如果设置的学习率过大,容易梯度爆炸。 vera:VeRA 是对 LoRA 的一种改进,基于低秩更新框架,但在更 阅读全文
posted @ 2025-10-06 22:57 gsSaber 阅读(2) 评论(0) 推荐(0)