AWQ量化
https://zhuanlan.zhihu.com/p/697761176
AWQ量化
AWQ(激活感知权重量化)通过分析模型在校准数据上的激活值分布,识别显著权重并进行量化,从而优化模型性能。
AWQ的基本原理
AWQ量化技术的核心在于识别模型中不同权重的重要性,尤其是显著权重(salient weights)。这些权重对模型的输出精度影响较大,因此在量化过程中需要特别保护。AWQ通过以下步骤来实现这一目标:
-
5 来源
量化过程
AWQ的量化过程可以概括为以下几个步骤:
-
分析激活:使用校准数据运行模型,收集激活值的分布信息。
-
搜索缩放因子:基于激活分布,自动为每个权重通道搜索最优的缩放因子,以最小化量化前后输出的差异。
-
量化与保存:应用找到的缩放因子,对权重进行量化,并保存量化后的权重和相关参数。2
通过这种方法,AWQ能够在保持模型精度的同时,显著降低内存占用和提升推理速度,成为后训练量化(PTQ)技术中的重要研究方向。

浙公网安备 33010602011771号