2025 年 8月 7 日随笔档案 - 汤佘

2025年8月7日

【模型压缩系列-1】一篇文章带你全面了解模型量化（Model Quantization）——全局篇

摘要：

本文通过五个方面系统介绍了大模型量化技术：首先阐述量化的基本概念，以低比特（INT8/4/2/1）取代 FP32 的压缩与加速原理；其次按时间维度区分 PTQ、QAT 与 QAF 三种策略，明确何时量化；随后按对象维度梳理权重、激活、梯度、KV-Cache 及偏置的量化差异；再从粒度维度比较 per-tensor、per-channel、per-group、per-token 的精度与开销权衡；最后结合位宽与对象给出 W8A16、W4A8、KV4 等典型组合，完整呈现量化在模型大小、推理速度与部署场景中的综合优化路径。阅读全文

posted @ 2025-08-07 15:25 汤佘阅读(730) 评论(0) 推荐(1)