2025 年 4月 20 日随笔档案 - deephub

2025年4月20日

摘要：近期发布的LLaMA 4模型引入了混合专家（Mixture of Experts, MoE）架构，旨在提升模型效率和性能。尽管社区对LLaMA 4的实际表现存在一些讨论，但MoE作为一种重要的模型设计范式，继Mistral等模型之后再次受到关注。所以我们将使用Pytorch逐步从零开始实现一个简化版阅读全文

posted @ 2025-04-20 10:52 deephub 阅读(54) 评论(0) 推荐(0)

deephub

overfit深度学习

公告