摘要:
摘要: 论文《LoRA: Low-Rank Adaptation of Large Language Models》提出了一种高效的大模型微调方法,通过冻结预训练权重并插入可训练的低秩矩阵($\Delta W = B \cdot A$),显著降低参数规模(仅为原模型的0.01%-0.2%)。实验表明,LoRA在GLUE和生成任务上性能媲美甚至超越全量微调,同时实现无推理延迟、显存占用降低2/3等优势。该技术解决了传统微调资源消耗大的问题,成为大模型适配的主流方案,兼容多种Transformer架构,推动了大 阅读全文
posted @ 2025-11-17 14:43
TTGF
阅读(51)
评论(0)
推荐(0)
摘要:
摘要 2020年发表的《Language Models are Few-Shot Learners》(GPT-3论文)开创了AI新时代。该论文突破性地证明:当Transformer模型参数规模扩大到1750亿时,仅通过文本交互即可实现任务无关的少样本学习。GPT-3采用"预训练+提示词"的新范式,无需微调就能在翻译、问答等40+任务上展现强大性能。论文系统验证了模型在语言建模、闭卷问答等9类任务中的表现,其中在LAMBADA长文本任务上准确率达86.4%,较此前最优提升18.4%。这一研 阅读全文
posted @ 2025-11-17 14:42
TTGF
阅读(338)
评论(0)
推荐(1)

浙公网安备 33010602011771号