llm 量化技术综述

综述: LLM 量化

1. Intro

低比特量化主要是减少tensor的bit-width，可以有效减少内存以及计算需求；主要可以压缩权重, 激活值, 和梯度，使得可以在受限资源的设备上使用。

2. 低比特LLM的基础

在这一届，我们主要引入从以下三个方面讨论：

low-bit 数值格式
量化粒度
动态或者静态量化

2.1 low-bit 数值格式

2.1.1 标准格式

浮点数的一般格式为：

$$X_{FPk} = (-1)^s2(1.mantissa)=(-1)^s2(1+\frac{d_1}{2}+\frac{d_2}{2^2}+...)$$
这里的s是符号位, p是指数的整型, bias需要应用到这个指数上；最后s p 和m的bits加起来应该等于k。

我们可以使用$EeMm$来表示对应的浮点数格式，例如float16可以表示$E5M10$, bfloat16表示为$E8M7$；因此bfloat16可以表示更大的数，但相对的数值分布更稀疏。除此之外，对于fp8也来两种主要的格式$E4M3$和$E5M2$。

NormalFloat(NF): 主要用在weight-only的量化策略

Micro scaling FP: 对tensor的sub-blocks有一个scale系数 $E8M0$ 可以进行更细粒度的量化

integer number: 将浮点数划分为 $2^k$个等间距的离散整型, 格式如下：
$$X_{INT_k} = (-1)^s(d_12m+d_22^{{m-1}+...+d_m2}0)$$
对于有符号整型，我们使用$m=k-1$ 以及 $s \in {0,1}$；对于无符号，我们使用$m=k$和$s=0$

二元数: 直接抽象出值的符号；即 ${-1,1}$ 和 ${0,1}$

2.1.2 自定义格式

TODO

2.2 量化粒度

Tensor-wise, Token-wise, channel-wise, group-wise(将token以及channel划分成组), element-wise(只应用在训练权重时，在推理前，这个scale将被合并到量化权重上)

token-wise的激活值和channel-wise的权重经常一起使用；因为对应量化scale可以先进行一个计算，减少overhead

2.3 动态和静态量化

这里的两个策略主要指PTQ中的策略，我们可以看出哪些方式是需要反量化的计算，哪些则不需要：

动态量化: 裁剪和存储被量化的值，通常不需要输入数据，但对于weight来说可以搜索出最优的scale系数以及零点偏移$Z_w$。在推理时，激活值将作为输入进入量化模块计算出最优的scaling factor和零点偏移，之后动态地进行量化。scaling和zero point可以基于当前批次的数据实时获取。这种方法会引入额外的计算scale的复杂度。

静态量化: 需要输入数据，可以找到对于weight和activation或者weight-only的最优scale系数

3. 框架与系统支持

3.1 量化推理框架

bitsandbytes, mlc-llm, vLLM, llama.cpp, sglang...

一些主流的量化算法: GPTQ, AWQ, SmoothQuant

bit-width 支持:

weight-only: 只量化权重，激活值保持fp16。这种量化的权重将会dequantize成fp16，之后执行fp16的mma运算。减少了计算设备与host之间数据传输的延迟；但是dequantize需要额外的时间。
W & A: 算法量化了权重和激活值，可以直接执行低比特的乘法；所有框架都支持INT8和FP16的矩乘；受限于GPU的计算能力，只有部分硬件支持INT4 FP8的MatMul. 很少有支持不同bitwidth的框架，例如Wint4Aint8，这需要自定义的计算kernel(需要汇编的GEMV指令)。值得注意的是，如果想使用低bit的MatMul，你的硬件必须支持特定的low-bit的计算。
KV cache: 与weight-only的算法类似，量化的kv cache通常在进行矩乘时，需要先将其dequant为fp16，

3.2 量化的系统支持

我们很容易会提出一个问题：量化是怎样达到加速和内存的减少的？

我们首先可以讨论模型推理时的数据传输过程：

host mem -> device mem: 对于权重来说，我们首先将每一层layer的权重从host移动到device上；量化可以减少这部分传输延迟，激活值一般都存储在device上，不需要特殊的移动。
off-chip -> on-chip: 将一块权重和激活值从global memory传输到片上的L2 cache和shared memory
shared memory -> register: 为了更快的计算，quantize和dequant操作以及matmul总是在registers上计算。
off-loading(register->shared memory->device memory)

3.2.1 weight-only 量化

weight-only和W&A量化都牵涉到a过程:

将weight量化到更低位宽，得到对应量化参数
将这些量化后的权重pack为uint32
offload以及存进host mem

注意weight-only减少了从host mem到on-chip mem的传输时间，但引入了额外的dequant开销。我们甚至没有必要设计一个线性的从低比特数到真实值的满射；换句话说，我们可以将整数映射为任意的浮点数，通过lookup table的机制。

3.2.2 W & A 量化

我们需要执行额外的将激活值从fp16量化为更低bit的整型；在计算完成后，将INT32转为FP16。

有两种自定义的设计：

faster quant & dequant
faster matmul kernel: gemv相比gemm对于适配不同位宽具有更高的灵活性和效率；通过将一些矩阵和向量的乘法进行组合可以得到最终的结果矩阵。

3.2.3 KV cache 量化

有三种技术:

quant to lower bitwidth:
quantizing window: 推迟量化发生的时机
跳过Knew的dequant: 先将其与先前dequant的kv进行concat，防止丢失信息
优化outliers

3.2.4 quant和dequant

Floating-point quant: 将更高bit的浮点数quant为低bit，实际上是mantissa bit的裁剪。我们可以总结出以下的流程:

scale。目标占据更少的bit，表示范围将会大大减小；这个scaling可以通过学习或者裁剪来预先获取
检查上溢和下溢。检查source是否overflow了目标的表示范围；如果是，直接返回最大或最小。
拷贝和round。如果值没有overflow或underflow，我们可以直接round

float-point dequant: 直接0️⃣填充

Int quant:
$$X_{INT_k}=clamp(round(\frac{X_{FP}}{s})+z, q^{min}, q^{max})$$
其中$s$可以被初始化为$\frac{q^{max}-q{min}}{X^{max}_{FP}-X_{FP}}$.

对于系统支持，很多框架都应用了marlin quant作为基础过程。

Int dequant: $$X_{FP}=s(X_{INT_x}-z)$$。可以通过某个算法找到最优的s

二元量化

4. LLM training的高效量化策略

4.1 低比特训练

FP16 训练: 通常使用BF16进行模型训练，然而需要特定的硬件支持；对于老硬件，我们使用fp16进行加速，但是有under/overflow的风险。

fp8 traning: 利用transformer engine；需要对每个fp8的tensor都有一个scaling factor，注意需要延迟获取。

4.2 PEFT的量化策略

QLora:

5. LLM 推理的高效量化策略

TODO

posted @ 2025-03-23 21:02 xwher 阅读(325) 评论(0) 收藏举报

刷新页面返回顶部

xwher