哥布林学者 - 博客园

[置顶] 吴恩达深度学习课程：深度学习入门笔记全集目录

摘要：课程周数类别内容课程一：神经网络和深度学习第一周：深度学习简介理论（1）深度学习简介实践无第二周：神经网络基础理论（1）回归基础（2）分类与逻辑回归（3）梯度下降法（4）损失函数与传播（5）向量化（6）向量化的反向传播实践 E & C 第三周：浅层神经网络理论阅读全文

posted @ 2026-02-06 18:22 哥布林学者阅读(1383) 评论(0) 推荐(1)

2026年6月19日

深度学习进阶（三十一）FlashAttention：IO 感知的精确注意力

摘要：上一篇我们把现代大模型的五个核心模块拼回了 LLaMA 这个完整案例中，可以看到注意力机制仍然是计算最密集的部分。而这个密集程度在序列变长时，会变得越来越恐怖：标准自注意力的计算复杂度和空间复杂度都是 \(O(n^2)\)：序列长度翻倍，计算量翻四倍，内存占用也翻四倍。而在之前，我们用 KV 阅读全文

posted @ 2026-06-19 16:31 哥布林学者阅读(120) 评论(0) 推荐(0)

2026年6月16日

深度学习进阶（三十）从 Transformer 到 LLaMA：现代 LLM 架构总览

摘要：上一篇我们介绍了 GQA，通过分组共享 KV Head，在注意力质量和推理效率之间找到了实际的平衡点。至此，从第 25 篇到第 29 篇，我们分别拆解了现代大模型的五个核心设计模块： RoPE：旋转位置编码，让 QK 点积天然感知相对位置。 RMSNorm：去掉均值中心化的简化归一化。 SwiGL 阅读全文

posted @ 2026-06-16 17:19 哥布林学者阅读(157) 评论(2) 推荐(0)

2026年6月9日

深度学习进阶（二十九）现代 LLM 的核心架构设计其四：GQA

摘要：上一篇我们介绍了 KV Cache：它把每一步重复的 K、V 计算存进缓存，让自回归推理的计算量骤降。但这个加速不是没有代价的。KV Cache 的大小正比于多项参数，因此又反过来推动了注意力结构本身的改进。这便是本篇内容：分组查询注意力（Grouped-Query Attention，GQA）阅读全文

posted @ 2026-06-09 11:10 哥布林学者阅读(167) 评论(0) 推荐(0)

2026年6月8日

深度学习进阶（二十八）现代 LLM 的核心架构设计其三：Decoder-Only 下的 KV Cache

摘要：上一篇我们介绍了 SwiGLU，通过引入门控机制让 FFN 能够根据输入动态筛选信息，取代了标准 Transformer 沿用多年的单通路结构。前两篇的内容都关于结构上的优化，本篇则关于一个核心工程优化。我们知道，即使是现在的多数大模型，其生成回答的逻辑仍然是自回归生成，即逐个字往外蹦。因此，阅读全文

posted @ 2026-06-08 13:02 哥布林学者阅读(190) 评论(0) 推荐(3)

2026年6月4日

深度学习进阶（二十七）现代 LLM 的核心架构设计其二：SwiGLU

摘要：上一篇我们看了现代大模型对归一化的改造。 RMSNorm 去掉了均值中心化，只保留均方根缩放：一个沿用多年的标准组件，拆开一看，其中一部分工作在现代整体架构中已经有些多余了。本篇来看第二个改动：Transformer 架构中的 FFN (MLP) 层的重构，而其具体内容，需要先从激活函数说起。 1 阅读全文

posted @ 2026-06-04 15:54 哥布林学者阅读(261) 评论(0) 推荐(0)

2026年6月1日

深度学习进阶（二十六）现代 LLM 的核心架构设计其一：RMSNorm

摘要：上一篇我们介绍了旋转位置编码 RoPE ，它通过在 QK 点积中注入旋转矩阵，让注意力自然而然地感知到相对位置。如今 RoPE 已经成为几乎所有主流开源大模型的位置编码标准。但位置编码只是现代大模型改造的一个环节。如果把标准 Transformer 和今天的大模型放在一起对比，就会发现归一化方式阅读全文

posted @ 2026-06-01 20:35 哥布林学者阅读(172) 评论(0) 推荐(0)

2026年5月29日

深度学习进阶（二十五）RoPE：现代 NLP 的位置编码范式

摘要：上一篇我们回到 Swin 补上了它的二维 RPE 方案，用紧凑偏置表实现了高效的二维相对位置编码。至此，从 Shaw 的加法型、Transformer-XL 的四项重构式、再到 T5 的偏置型，Swin 的二维扩展，每种方案都在尝试不同的方法来实现 RPE。最终，在 NLP 这个 RPE 的"原阅读全文

posted @ 2026-05-29 16:45 哥布林学者阅读(161) 评论(0) 推荐(1)

2026年5月27日

vibe coding（二）Where you go：一个微型 windows 桌面覆盖工具

摘要：自打有了第一次的实践之后，现在有什么简单需求我都会尝试自己做一做，只要不涉及API，纯本地化的工具相对来说还是比较容易的。 1. 总结得益于这次的目标非常简单，同样简单总结一下：用时：不到两小时。配置：Claude code 接 dsV4-flash 花费：0.59￥，换算约 1400 万阅读全文

posted @ 2026-05-27 09:49 哥布林学者阅读(347) 评论(0) 推荐(1)

2026年5月25日

高光谱拼接算法（二）Harris 角点探测

摘要：本篇算法仓位：harris 1. 拼接算法现状首先先需要说明的是，不同于我们之前介绍的 CV 和 NLP，在这些领域中，DL 方法已经成为绝对主流，传统机器学习和统计学方法更多只作为思想上的参考。其根本原因还是我们之前提到过的： DL 本质上是数据驱动的方法，而这些领域恰恰拥有海量数据，从而使模阅读全文

posted @ 2026-05-25 22:21 哥布林学者阅读(165) 评论(0) 推荐(0)

2026年5月22日

高光谱拼接算法（一）扫推式成像和航带拼接算法

摘要：新分类，不再只说纯理论了，我同步维护一个 github 仓库，也方便自己跑跑代码，有兴趣可以关注一下。 1. 扫推式成像（Push broom Imaging）在之前的光谱融合中提到过，现有技术很难一次获取兼顾高光谱分辨率和高空间分辨率的图像。概括来说可以理解为相机里的二维传感器难以完整采集阅读全文

posted @ 2026-05-22 19:19 哥布林学者阅读(166) 评论(0) 推荐(0)

Loading

Goblinscholar

公告