大模型微调新思路:LoRA技术解析

大模型微调新思路:LoRA技术解析
LoRA,全称Low-Rank Adaptation,是一种用于大模型微调的新方法。它通过低秩分解来模拟参数的改变量,从而以极小的参数量实现大模型的间接训练。简单来说,LoRA就是在原模型旁边增加一个旁路,通过低秩分解来模拟参数的更新量。训练时,原模型保持固定,只训练降维矩阵A和升维矩阵B。推理时,可以将BA加到原参数上,从而实现适配下游任务。

LoRA的核心思想是通过低秩分解来模拟参数的改变量。具体来说,它在原模型旁边增加一个旁路,通过先降维再升维的方式来模拟参数的更新量。训练时,原模型保持固定,只训练降维矩阵A和升维矩阵B。推理时,可以将BA加到原参数上,从而实现适配下游任务。这种方法的优点在于,一个中心模型可以服务多个下游任务,节省参数存储量,推理阶段不引入额外计算量,与其他参数高效微调方法正交,可有效组合,训练任务比较稳定,效果好,可插拔,不引入额外的推理延时。

然而,LoRA也有一些缺点。如果将BA加到W上以消除推理延迟,则在一次forward中对不同任务的输入进行批处理是不太直接或者说不太方便的。当然了,如果不考虑推理延迟,则可以不合并权重,通过动态路由来为不同任务的样本选择相应的LoRA。

总的来说,LoRA是一种高效的大模型微调方法,具有很大的应用潜力。

posted on 2025-02-26 22:01  ExplorerMan  阅读(172)  评论(0)    收藏  举报

导航