双系统LoRA分区高效大模型微调技术

LoRA-PAR:一种灵活的双系统LoRA分区方法用于高效LLM微调

像DeepSeek-R1和OpenAI-O1这样的大规模生成模型从思维链(CoT)推理中受益匪浅,但要提升其性能通常需要大量数据、大模型规模和全参数微调。虽然参数高效微调(PEFT)有助于降低成本,但现有方法主要解决领域适应或分层分配问题,而非针对不同响应需求明确调整数据和参数。

受"思考,快与慢"中描述的两种思维模式——系统1(快速、直觉、通常自动)和系统2(较慢、更审慎和分析性)——的启发,我们类比认为大语言模型参数的不同"子区域"可能类似地专门用于需要快速直觉响应的任务与需要多步逻辑推理的任务。

因此,提出LoRA-PAR,这是一个双系统LoRA框架,通过系统1或系统2需求对数据和参数进行分区,为每个任务使用更少但更专注的参数。具体而言,通过多模型角色扮演和投票对任务数据进行分类,并基于重要性评分进行参数分区,然后采用两阶段微调策略:使用监督微调(SFT)训练系统1任务以增强知识和直觉,随后使用强化学习(RL)精炼系统2任务以加强更深层次的逻辑思考。

大量实验表明,这种SFT和RL的两阶段微调策略在降低活动参数使用量的同时,达到或超越了最先进的PEFT基线性能。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-08-27 18:01  CodeShare  阅读(9)  评论(0)    收藏  举报