2025 年 7月 24 日随笔档案 - deephub

2025年7月24日

摘要： Transformer架构展现出卓越的扩展特性，其性能随模型容量增长而持续提升。大规模模型在获得优异性能的同时，也带来了显著的计算和存储开销。深入分析主流Transformer架构发现，多层感知器（MLP）模块占据了模型参数的主要部分，这为模型压缩提供了重要切入点。针对这一问题，研究者提出了多样性阅读全文

posted @ 2025-07-24 21:54 deephub 阅读(23) 评论(0) 推荐(0)

deephub

overfit深度学习

公告