摘要: 14 种不同的 GGML 模型,对应于不同类型的量化。它们遵循特定的命名约定:“q”+ 用于存储权重的位数(精度)+ 特定变体。以下是所有可能的量化方法及其相应用例的列表,基于 TheBloke 制作的模型卡中的描述,针对llama2模型架构: q2_k:将 Q4_K 用于 attention.vw 阅读全文
posted @ 2025-08-12 10:27 有何m不可 阅读(170) 评论(0) 推荐(0)