摘要: 为什么做量化 前面做了基于 Qwen3:30b 训练的模型,全精度的权重接近 60GB,在一张 4090/5090 的卡上没办法正常运行,q4 量化后可以在单卡上进行推理 量化技术选型 推理加载时量化 推理引擎在加载模型权重时,实时转换模型精度 quantization='awq' 存在问题: 模型 阅读全文
posted @ 2025-09-02 12:43 zion03 阅读(144) 评论(0) 推荐(0)