05 2025 档案

摘要:大模型参数计算方法总结 本指南简要总结了如何估算一个 Transformer 架构(例如 GPT、LLaMA、BERT)的大模型参数量,便于理解如 “7B”、“13B” 等模型中参数是如何计算得出的。 🔢 模型参数的组成部分 一个典型的 Transformer 模型的参数来源包括: 模块 参数类型 阅读全文
posted @ 2025-05-26 19:49 SIo_2 阅读(204) 评论(0) 推荐(0)
摘要:🧠 LayerNorm vs RMSNorm:机制、差异与适用场景详解 归一化(Normalization)是现代神经网络中的基础构件。本文深入分析两种常见的归一化方法:LayerNorm 和 RMSNorm,重点讨论它们的数学机制、对特征分布的影响、适配任务的差异,以及为什么 RMSNorm 在 阅读全文
posted @ 2025-05-26 11:02 SIo_2 阅读(105) 评论(0) 推荐(0)
摘要:InstructGPT: SFT+RM+PPO 阅读全文
posted @ 2025-05-25 21:12 SIo_2 阅读(71) 评论(0) 推荐(0)
摘要:📚 NLP 深度学习笔记:ELMo, BERT, GPT 全面解析 https://www.cnblogs.com/zishu/p/17363205.html 🧠 1. ELMo(Embeddings from Language Models) 🧾 核心思想 ELMo 通过 双向 LSTM(B 阅读全文
posted @ 2025-05-25 11:16 SIo_2 阅读(43) 评论(0) 推荐(0)
摘要:🌐 GloVe 词向量算法笔记 一、什么是 GloVe? GloVe(Global Vectors for Word Representation)是斯坦福大学于 2014 年提出的一种用于学习词向量的算法,旨在结合: LSA 的全局共现统计 Word2Vec 的预测式学习方法 它通过构建词对共现 阅读全文
posted @ 2025-05-25 00:11 SIo_2 阅读(45) 评论(0) 推荐(0)
摘要:FastText概念 阅读全文
posted @ 2025-05-24 22:34 SIo_2 阅读(55) 评论(0) 推荐(0)
摘要:Word2Vec:CBOW和Skip-gram 阅读全文
posted @ 2025-05-19 22:54 SIo_2 阅读(28) 评论(0) 推荐(0)