2025 年 9月 2 日随笔档案 - zion03

2025年9月2日

摘要：为什么做量化前面做了基于 Qwen3:30b 训练的模型，全精度的权重接近 60GB，在一张 4090/5090 的卡上没办法正常运行，q4 量化后可以在单卡上进行推理量化技术选型推理加载时量化推理引擎在加载模型权重时，实时转换模型精度 quantization='awq' 存在问题：模型阅读全文

posted @ 2025-09-02 12:43 zion03 阅读(329) 评论(0) 推荐(0)

CD Yang

公告