会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
且将新火试新茶
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
···
48
下一页
2025年5月7日
第5讲、Transformer 编码器(Encoder)处理过程详解
摘要: 🔍 Transformer 编码器(Encoder)处理过程详解 Transformer Encoder 是一个由 N 层(一般为 6 层)堆叠而成的模块结构。每一层的本质是两个核心子模块: 多头自注意力(Multi-Head Self-Attention) 前馈神经网络(Feed Forward
阅读全文
posted @ 2025-05-07 23:43 何双新
阅读(641)
评论(0)
推荐(0)
2025年5月6日
第1.3讲、什么是 Attention?——从点菜说起 🍽️
摘要: 假设你在一家餐厅点餐,菜单上有好多菜(句子中的每个单词),你现在要点菜(做决策),但不可能每道菜都吃一样多。 你会怎么做?你会: 看下菜单(获取所有信息) 根据自己的口味打分(我喜欢辣、不要太咸) 按照喜好分配注意力(辣子鸡80%,炒青菜20%) 最后把你"注意到的内容"组合起来形成最终决策 👉
阅读全文
posted @ 2025-05-06 23:57 何双新
阅读(89)
评论(0)
推荐(0)
第1.2讲、从 RNN 到 LSTM 再到 Self-Attention:深度学习中序列建模的演进之路
摘要: 处理序列数据(如文本、语音、时间序列)一直是深度学习的重要课题。在这个领域中,我们从 RNN(Recurrent Neural Network)出发,经历了 LSTM(Long Short-Term Memory)的改进,最终发展到了当今大放异彩的 Self-Attention(自注意力机制)。本文
阅读全文
posted @ 2025-05-06 13:09 何双新
阅读(145)
评论(0)
推荐(0)
2025年4月28日
第2讲、Tensor高级操作与自动求导详解
摘要: 1. 前言 在深度学习模型中,Tensor是最基本的运算单元。本文将深入探讨PyTorch中两个核心概念: Tensor的广播机制(Broadcasting) 自动求导(Autograd)机制 这些知识点不仅让你更加灵活地操作数据,还为后续搭建神经网络打下坚实基础! 2. Tensor广播(Broa
阅读全文
posted @ 2025-04-28 00:02 何双新
阅读(58)
评论(0)
推荐(0)
2025年4月27日
第1讲、#PyTorch教学环境搭建与Tensor基础操作详解
摘要: 引言 PyTorch是当前深度学习领域最流行的框架之一,因其动态计算图和直观的API而备受开发者青睐。本文将从零开始介绍PyTorch的环境搭建与基础操作,适合各种平台的用户和深度学习初学者。 1. 安装和环境搭建 macOS (Apple Silicon) 对于Mac M1/M2/M3用户,PyT
阅读全文
posted @ 2025-04-27 22:07 何双新
阅读(97)
评论(0)
推荐(0)
2025年4月26日
第4讲、揭秘大模型:理解与预测的核心机制
摘要: 在人工智能高速发展的今天,大型语言模型(LLM)如ChatGPT、GPT-4、Claude等已经成为热门话题。这些模型能够理解人类语言并生成连贯、有意义的回应,背后是三个核心技术组成的基本运行机制:理解和表示单词、理解输入内容、预测输出内容。本文将深入剖析这三大核心机制,以及支撑它们的Transfo
阅读全文
posted @ 2025-04-26 09:41 何双新
阅读(101)
评论(0)
推荐(0)
2025年4月25日
第3讲、大模型如何理解和表示单词:词嵌入向量原理详解
摘要: 1. 引言 大型语言模型(Large Language Models,简称LLM)如GPT-4、Claude和LLaMA等近年来取得了突破性进展,能够生成流畅自然的文本、回答复杂问题、甚至编写代码。但这些模型究竟是如何理解人类语言的?它们如何表示和处理单词?本文将深入探讨大模型的基础机制——词嵌入向
阅读全文
posted @ 2025-04-25 22:55 何双新
阅读(435)
评论(0)
推荐(0)
第2讲、Transformer架构图详解
摘要: 1. Transformer架构运行机制 Transformer架构是一种强大的神经网络结构,主要用于自然语言处理任务。它摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全基于注意力机制构建。根据图示,我们可以看到Transformer由以下主要部分组成: 简单结构拆分图 完整的详细结
阅读全文
posted @ 2025-04-25 11:11 何双新
阅读(829)
评论(0)
推荐(0)
2025年4月24日
第1.1讲:Transformers 的崛起:从RNN到Self-Attention
摘要: 序列建模的演进之路 一、RNN( Recurrent Neural Networks):序列处理的开拓者 循环神经网络(RNN)是最早处理序列数据的深度学习结构。RNN的核心思想是在处理序列的每个时间步时保持一个"记忆"状态。 h_t = tanh(W_x * x_t + W_h * h_{t-1}
阅读全文
posted @ 2025-04-24 21:52 何双新
阅读(192)
评论(0)
推荐(0)
2025年4月23日
L3-4、让 Prompt 更聪明:调试技巧与智能问答系统实战
摘要: 让 Prompt 更聪明:调试技巧与智能问答系统实战 在大语言模型(LLM)应用开发中,Prompt 工程是核心技能。本文将系统介绍 Prompt 调试技巧,并通过构建一个实用的 FAQ 问答机器人,演示如何应用这些技巧在实际项目中。 一、Prompt 出错的常见类型与现象 Prompt 设计不当会
阅读全文
posted @ 2025-04-23 12:51 何双新
阅读(252)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
48
下一页
公告