05 2025 档案
摘要:大模型参数计算方法总结 本指南简要总结了如何估算一个 Transformer 架构(例如 GPT、LLaMA、BERT)的大模型参数量,便于理解如 “7B”、“13B” 等模型中参数是如何计算得出的。 🔢 模型参数的组成部分 一个典型的 Transformer 模型的参数来源包括: 模块 参数类型
阅读全文
摘要:🧠 LayerNorm vs RMSNorm:机制、差异与适用场景详解 归一化(Normalization)是现代神经网络中的基础构件。本文深入分析两种常见的归一化方法:LayerNorm 和 RMSNorm,重点讨论它们的数学机制、对特征分布的影响、适配任务的差异,以及为什么 RMSNorm 在
阅读全文
摘要:InstructGPT: SFT+RM+PPO
阅读全文
摘要:📚 NLP 深度学习笔记:ELMo, BERT, GPT 全面解析 https://www.cnblogs.com/zishu/p/17363205.html 🧠 1. ELMo(Embeddings from Language Models) 🧾 核心思想 ELMo 通过 双向 LSTM(B
阅读全文
摘要:🌐 GloVe 词向量算法笔记 一、什么是 GloVe? GloVe(Global Vectors for Word Representation)是斯坦福大学于 2014 年提出的一种用于学习词向量的算法,旨在结合: LSA 的全局共现统计 Word2Vec 的预测式学习方法 它通过构建词对共现
阅读全文
摘要:Word2Vec:CBOW和Skip-gram
阅读全文

浙公网安备 33010602011771号