2025 年 5月 26 日随笔档案 - SIo_2

2025年5月26日

摘要：大模型参数计算方法总结本指南简要总结了如何估算一个 Transformer 架构（例如 GPT、LLaMA、BERT）的大模型参数量，便于理解如 “7B”、“13B” 等模型中参数是如何计算得出的。 🔢 模型参数的组成部分一个典型的 Transformer 模型的参数来源包括：模块参数类型阅读全文

posted @ 2025-05-26 19:49 SIo_2 阅读(224) 评论(0) 推荐(0)

Week2-LLaMA1-RMSNorm，SwiGLU

摘要： 🧠 LayerNorm vs RMSNorm：机制、差异与适用场景详解归一化（Normalization）是现代神经网络中的基础构件。本文深入分析两种常见的归一化方法：LayerNorm 和 RMSNorm，重点讨论它们的数学机制、对特征分布的影响、适配任务的差异，以及为什么 RMSNorm 在阅读全文

posted @ 2025-05-26 11:02 SIo_2 阅读(113) 评论(0) 推荐(0)

sio2zyh

公告