大语言模型剪枝新路径:轻剪常尝优化法
大语言模型剪枝的优化路径
近年来,大语言模型(LLM)彻底改变了自然语言处理领域,并对计算机视觉、语音识别和机器翻译做出重大贡献。LLM有效性的关键因素之一在于其训练所使用的超大规模数据集,但代价是模型体积过大,导致运行速度变慢和计算资源消耗增加。人工智能研究者们正积极寻求在保持性能的同时使大模型更紧凑的方法。
为此,提出了一种新颖的“轻剪常尝”(Prune Gently, Taste Often)理念,专注于通过新方式进行剪枝——这是一种压缩过程,可移除LLM神经网络层中不重要的连接。在某顶级计算语言学会议上发表的论文中,介绍了Wanda++框架,该框架可在单GPU上10分钟内压缩具有70亿参数的模型。
以困惑度(概率分布预测给定样本的能力)衡量,该方法比前代领先技术Wanda提升32%的性能。
剪枝技术演进
剪枝面临多重挑战:首先,训练大型LLM成本高昂,且训练完成后运行时成本也很高。虽然剪枝可以降低运行时成本,但若在构建过程后期进行会损害性能,而若在构建过程早期进行则会加剧训练成本问题。
模型训练时会构建从训练数据中提取的语义连接图谱。这些称为参数的连接随着更多训练数据的引入而获得或失去重要性(权重)。在训练阶段进行的“剪枝感知训练”需要全程进行权重扫描,计算成本高昂,且需承担大规模实验的试错负担。
另一种方法是在LLM训练完成后进行剪枝。这种方法成本较低,仅需几分钟到几小时(相比训练所需的数周时间),且不需要大量GPU。工程师会逐层扫描模型中的不重要权重,依据权重大小和参与最终输出的频率等综合因素进行判断。但这种方法不够“轻柔”:它会冲击模型结构,导致准确性下降,因为模型无法像训练过程中那样从权重移除中学习。
平衡之道
新理念提供了第三条路径:在模型完全训练后,逐块扫描模型,在解码块级别(构成LLM主要部分的重复构建块)分析权重,而非在全模型或层级进行分析。
在每个解码块内,输入少量数据并收集输出来校准权重,通过多次迭代剪除不重要权重并更新保留权重。由于解码块体积较小(仅为整个模型的一小部分),该方法仅需单GPU即可在数分钟内完成扫描。
从技术角度看,关键在于聚焦解码块——这些块由注意力层、多头注意力层和多层感知机等少量神经网络层组成。即使具有70亿参数的LLM可能仅包含32个解码块。每个块足够小(约2亿参数),可轻松由单GPU扫描。在块级别进行剪枝节省资源,不会消耗大量GPU内存。
虽然所有剪枝过程最初都会降低性能,但新方法能恢复性能。每次扫描块时,都会平衡剪枝与性能直至优化完成,然后继续处理下一个块。这既保持了块级性能,也保证了整体模型质量。
技术优势与应用前景
在解码块级别进行剪枝是“轻柔”的,因为剪枝影响局部化,对模型整体行为影响较小。逐块重复剪枝过程如同厨师“常尝”调味以确保风味平衡。
该理念还有助于解决大公司LLM开发的痛点。在LLM时代之前,每个团队构建自己的模型,通过模型编排实现服务。如今,计算资源往往被实际训练LLM的团队占用。通过新方法,运行时性能优化团队可以重新获得更多GPU资源,有效扩展探索空间。
“轻剪常尝”理念还可应用于其他架构优化。例如,在解码块级别校准模型可将密集结构神经网络(密集多层感知机)转换为计算强度较低的混合专家网络(MoE)。本质上,逐解码块校准能够通过用更高效、性能更优的替代方案(如Kolmogorov-Arnold网络)替换通用组件,实现模型的外科手术式重新设计。虽然Wanda++理念并非万能解决方案,但它为重新思考模型压缩和探索未来LLM架构开辟了新路径。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号