何双新 - 博客园

2025年5月12日

摘要：全面拆解 Transformer 架构：Encoder、Decoder 内部模块解析（附流程图小测验）关键词：Transformer、Encoder、Decoder、Self-Attention、Masked Attention、位置编码、残差连接、多头注意力机制 Transformer 自 20 阅读全文

posted @ 2025-05-12 08:30 何双新阅读(1147) 评论(0) 推荐(0)

2025年5月7日

第5讲、Transformer 编码器（Encoder）处理过程详解

摘要： 🔍 Transformer 编码器（Encoder）处理过程详解 Transformer Encoder 是一个由 N 层（一般为 6 层）堆叠而成的模块结构。每一层的本质是两个核心子模块：多头自注意力（Multi-Head Self-Attention）前馈神经网络（Feed Forward 阅读全文

posted @ 2025-05-07 23:43 何双新阅读(837) 评论(0) 推荐(0)

2025年5月6日

第1.3讲、什么是 Attention？——从点菜说起 🍽️

摘要：假设你在一家餐厅点餐，菜单上有好多菜（句子中的每个单词），你现在要点菜（做决策），但不可能每道菜都吃一样多。你会怎么做？你会：看下菜单（获取所有信息）根据自己的口味打分（我喜欢辣、不要太咸）按照喜好分配注意力（辣子鸡80%，炒青菜20%）最后把你"注意到的内容"组合起来形成最终决策 👉 阅读全文

posted @ 2025-05-06 23:57 何双新阅读(132) 评论(0) 推荐(0)

第1.2讲、从 RNN 到 LSTM 再到 Self-Attention：深度学习中序列建模的演进之路

摘要：处理序列数据（如文本、语音、时间序列）一直是深度学习的重要课题。在这个领域中，我们从 RNN（Recurrent Neural Network）出发，经历了 LSTM（Long Short-Term Memory）的改进，最终发展到了当今大放异彩的 Self-Attention（自注意力机制）。本文阅读全文

posted @ 2025-05-06 13:09 何双新阅读(238) 评论(0) 推荐(0)

2025年4月28日

第2讲、Tensor高级操作与自动求导详解

摘要： 1. 前言在深度学习模型中，Tensor是最基本的运算单元。本文将深入探讨PyTorch中两个核心概念： Tensor的广播机制（Broadcasting）自动求导（Autograd）机制这些知识点不仅让你更加灵活地操作数据，还为后续搭建神经网络打下坚实基础！ 2. Tensor广播（Broa 阅读全文

posted @ 2025-04-28 00:02 何双新阅读(86) 评论(0) 推荐(0)

2025年4月27日

第1讲、#PyTorch教学环境搭建与Tensor基础操作详解

摘要：引言 PyTorch是当前深度学习领域最流行的框架之一，因其动态计算图和直观的API而备受开发者青睐。本文将从零开始介绍PyTorch的环境搭建与基础操作，适合各种平台的用户和深度学习初学者。 1. 安装和环境搭建 macOS (Apple Silicon) 对于Mac M1/M2/M3用户，PyT 阅读全文

posted @ 2025-04-27 22:07 何双新阅读(157) 评论(0) 推荐(0)

2025年4月26日

第4讲、揭秘大模型：理解与预测的核心机制

摘要：在人工智能高速发展的今天，大型语言模型（LLM）如ChatGPT、GPT-4、Claude等已经成为热门话题。这些模型能够理解人类语言并生成连贯、有意义的回应，背后是三个核心技术组成的基本运行机制：理解和表示单词、理解输入内容、预测输出内容。本文将深入剖析这三大核心机制，以及支撑它们的Transfo 阅读全文

posted @ 2025-04-26 09:41 何双新阅读(177) 评论(0) 推荐(0)

2025年4月25日

第3讲、大模型如何理解和表示单词：词嵌入向量原理详解

摘要： 1. 引言大型语言模型（Large Language Models，简称LLM）如GPT-4、Claude和LLaMA等近年来取得了突破性进展，能够生成流畅自然的文本、回答复杂问题、甚至编写代码。但这些模型究竟是如何理解人类语言的？它们如何表示和处理单词？本文将深入探讨大模型的基础机制——词嵌入向阅读全文

posted @ 2025-04-25 22:55 何双新阅读(729) 评论(0) 推荐(0)

第2讲、Transformer架构图详解

摘要： 1. Transformer架构运行机制 Transformer架构是一种强大的神经网络结构，主要用于自然语言处理任务。它摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)，完全基于注意力机制构建。根据图示，我们可以看到Transformer由以下主要部分组成：简单结构拆分图完整的详细结阅读全文

posted @ 2025-04-25 11:11 何双新阅读(1636) 评论(0) 推荐(0)

2025年4月24日

第1.1讲：Transformers 的崛起：从RNN到Self-Attention

摘要：序列建模的演进之路一、RNN（ Recurrent Neural Networks）：序列处理的开拓者循环神经网络(RNN)是最早处理序列数据的深度学习结构。RNN的核心思想是在处理序列的每个时间步时保持一个"记忆"状态。 h_t = tanh(W_x * x_t + W_h * h_{t-1} 阅读全文

posted @ 2025-04-24 21:52 何双新阅读(295) 评论(0) 推荐(0)

且将新火试新茶

公告