会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
2025年7月24日
DGMR压缩技术:让大规模视觉Transformer模型体积减半而性能不减
摘要: Transformer架构展现出卓越的扩展特性,其性能随模型容量增长而持续提升。大规模模型在获得优异性能的同时,也带来了显著的计算和存储开销。深入分析主流Transformer架构发现,多层感知器(MLP)模块占据了模型参数的主要部分,这为模型压缩提供了重要切入点。 针对这一问题,研究者提出了多样性
阅读全文
posted @ 2025-07-24 21:54 deephub
阅读(23)
评论(0)
推荐(0)
公告