摘要:
本文通过五个方面系统介绍了大模型量化技术:首先阐述量化的基本概念,以低比特(INT8/4/2/1)取代 FP32 的压缩与加速原理;其次按时间维度区分 PTQ、QAT 与 QAF 三种策略,明确何时量化;随后按对象维度梳理权重、激活、梯度、KV-Cache 及偏置的量化差异;再从粒度维度比较 per-tensor、per-channel、per-group、per-token 的精度与开销权衡;最后结合位宽与对象给出 W8A16、W4A8、KV4 等典型组合,完整呈现量化在模型大小、推理速度与部署场景中的综合优化路径。 阅读全文

posted @ 2025-08-07 15:25
汤佘
阅读(730)
评论(0)
推荐(1)