gsSaber - 博客园

2025年10月6日

摘要： lora的各种变体： lora+：对A（靠近输入端）和B（靠近输出端）设置不同的学习率以加速收敛，对B的学习率通常是A的4到16倍，这是因为近输出层的梯度更加稳定，近输入层的梯度相对不稳定，如果设置的学习率过大，容易梯度爆炸。 vera:VeRA 是对 LoRA 的一种改进，基于低秩更新框架，但在更阅读全文

posted @ 2025-10-06 22:57 gsSaber 阅读(2) 评论(0) 推荐(0)

AkSaber

公告