• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
在努力搬砖的jellyfish
博客园    首页    新随笔    联系   管理    订阅  订阅
2025年8月7日
【模型压缩系列-1】一篇文章带你全面了解模型量化(Model Quantization)——全局篇
摘要: 【模型压缩系列-1】一篇文章带你全面了解模型量化(Model Quantization)——全局篇 本文通过五个方面系统介绍了大模型量化技术:首先阐述量化的基本概念,以低比特(INT8/4/2/1)取代 FP32 的压缩与加速原理;其次按时间维度区分 PTQ、QAT 与 QAF 三种策略,明确何时量化;随后按对象维度梳理权重、激活、梯度、KV-Cache 及偏置的量化差异;再从粒度维度比较 per-tensor、per-channel、per-group、per-token 的精度与开销权衡;最后结合位宽与对象给出 W8A16、W4A8、KV4 等典型组合,完整呈现量化在模型大小、推理速度与部署场景中的综合优化路径。 阅读全文
posted @ 2025-08-07 15:25 汤佘 阅读(730) 评论(0) 推荐(1)
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3