2025 年 5月随笔档案 - SIo_2

Week2-大模型参数计算方法

摘要：大模型参数计算方法总结本指南简要总结了如何估算一个 Transformer 架构（例如 GPT、LLaMA、BERT）的大模型参数量，便于理解如 “7B”、“13B” 等模型中参数是如何计算得出的。 🔢 模型参数的组成部分一个典型的 Transformer 模型的参数来源包括：模块参数类型阅读全文

posted @ 2025-05-26 19:49 SIo_2 阅读(204) 评论(0) 推荐(0)

Week2-LLaMA1-RMSNorm，SwiGLU

摘要：🧠 LayerNorm vs RMSNorm：机制、差异与适用场景详解归一化（Normalization）是现代神经网络中的基础构件。本文深入分析两种常见的归一化方法：LayerNorm 和 RMSNorm，重点讨论它们的数学机制、对特征分布的影响、适配任务的差异，以及为什么 RMSNorm 在阅读全文

posted @ 2025-05-26 11:02 SIo_2 阅读(105) 评论(0) 推荐(0)

Week2-InstructGPT学习笔记

摘要：InstructGPT: SFT+RM+PPO 阅读全文

posted @ 2025-05-25 21:12 SIo_2 阅读(71) 评论(0) 推荐(0)

Week1-ELMo, BERT, GPT概念

摘要：📚 NLP 深度学习笔记：ELMo, BERT, GPT 全面解析 https://www.cnblogs.com/zishu/p/17363205.html 🧠 1. ELMo（Embeddings from Language Models） 🧾 核心思想 ELMo 通过双向 LSTM（B 阅读全文

posted @ 2025-05-25 11:16 SIo_2 阅读(43) 评论(0) 推荐(0)

Week1-GloVe概念

摘要：🌐 GloVe 词向量算法笔记一、什么是 GloVe？ GloVe（Global Vectors for Word Representation）是斯坦福大学于 2014 年提出的一种用于学习词向量的算法，旨在结合： LSA 的全局共现统计 Word2Vec 的预测式学习方法它通过构建词对共现阅读全文

posted @ 2025-05-25 00:11 SIo_2 阅读(45) 评论(0) 推荐(0)

Week1-FastText概念

摘要：FastText概念阅读全文

posted @ 2025-05-24 22:34 SIo_2 阅读(55) 评论(0) 推荐(0)

Week1-Word2Vec基础知识

摘要：Word2Vec：CBOW和Skip-gram 阅读全文

posted @ 2025-05-19 22:54 SIo_2 阅读(28) 评论(0) 推荐(0)

sio2zyh

05 2025 档案

公告