摘要: 引子 很少关注大模型压缩这个领域,碰巧碰上了,那就来吧。为了应对 LLM 不断增长的模型尺寸,通常会采用量化技术,将高精度权重转换为低位表示。这显著减少了内存占用和计算需求,有助于在资源受限的环境中实现更快的推理和部署。然而,量化本质上是一种有损压缩技术,引入了一个基本缺点:它不可避免地改变了 LL 阅读全文
posted @ 2025-05-12 09:10 要养家的程序猿 阅读(77) 评论(0) 推荐(0)