摘要: 大模型参数计算方法总结 本指南简要总结了如何估算一个 Transformer 架构(例如 GPT、LLaMA、BERT)的大模型参数量,便于理解如 “7B”、“13B” 等模型中参数是如何计算得出的。 🔢 模型参数的组成部分 一个典型的 Transformer 模型的参数来源包括: 模块 参数类型 阅读全文
posted @ 2025-05-26 19:49 SIo_2 阅读(96) 评论(0) 推荐(0)
摘要: 🧠 LayerNorm vs RMSNorm:机制、差异与适用场景详解 归一化(Normalization)是现代神经网络中的基础构件。本文深入分析两种常见的归一化方法:LayerNorm 和 RMSNorm,重点讨论它们的数学机制、对特征分布的影响、适配任务的差异,以及为什么 RMSNorm 在 阅读全文
posted @ 2025-05-26 11:02 SIo_2 阅读(74) 评论(0) 推荐(0)