会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
CD Yang
博客园
首页
新随笔
联系
管理
订阅
2025年9月2日
记录 LLM 量化(awq 算法)
摘要: 为什么做量化 前面做了基于 Qwen3:30b 训练的模型,全精度的权重接近 60GB,在一张 4090/5090 的卡上没办法正常运行,q4 量化后可以在单卡上进行推理 量化技术选型 推理加载时量化 推理引擎在加载模型权重时,实时转换模型精度 quantization='awq' 存在问题: 模型
阅读全文
posted @ 2025-09-02 12:43 zion03
阅读(144)
评论(0)
推荐(0)
公告