摘要: 综述: LLM 量化 1. Intro 低比特量化主要是减少tensor的bit-width,可以有效减少内存以及计算需求;主要可以压缩权重, 激活值, 和梯度,使得可以在受限资源的设备上使用。 2. 低比特LLM的基础 在这一届,我们主要引入从以下三个方面讨论: low-bit 数值格式 量化粒度 阅读全文
posted @ 2025-03-23 21:02 xwher 阅读(326) 评论(0) 推荐(0)