摘要: Transformer架构展现出卓越的扩展特性,其性能随模型容量增长而持续提升。大规模模型在获得优异性能的同时,也带来了显著的计算和存储开销。深入分析主流Transformer架构发现,多层感知器(MLP)模块占据了模型参数的主要部分,这为模型压缩提供了重要切入点。 针对这一问题,研究者提出了多样性 阅读全文
posted @ 2025-07-24 21:54 deephub 阅读(23) 评论(0) 推荐(0)