Loading

摘要: 课程 周数 类别 内容 课程一:神经网络和深度学习 第一周:深度学习简介 理论 (1)深度学习简介 实践 无 第二周:神经网络基础 理论 (1)回归基础 (2)分类与逻辑回归 (3)梯度下降法 (4)损失函数与传播 (5)向量化 (6)向量化的反向传播 实践 E & C 第三周:浅层神经网络 理论 阅读全文
posted @ 2026-02-06 18:22 哥布林学者 阅读(1383) 评论(0) 推荐(1)
摘要: 上一篇我们把现代大模型的五个核心模块拼回了 LLaMA 这个完整案例中,可以看到注意力机制仍然是计算最密集的部分。 而这个密集程度在序列变长时,会变得越来越恐怖: 标准自注意力的计算复杂度和空间复杂度都是 \(O(n^2)\):序列长度翻倍,计算量翻四倍,内存占用也翻四倍。 而在之前,我们用 KV 阅读全文
posted @ 2026-06-19 16:31 哥布林学者 阅读(120) 评论(0) 推荐(0)
摘要: 上一篇我们介绍了 GQA,通过分组共享 KV Head,在注意力质量和推理效率之间找到了实际的平衡点。 至此,从第 25 篇到第 29 篇,我们分别拆解了现代大模型的五个核心设计模块: RoPE:旋转位置编码,让 QK 点积天然感知相对位置。 RMSNorm:去掉均值中心化的简化归一化。 SwiGL 阅读全文
posted @ 2026-06-16 17:19 哥布林学者 阅读(157) 评论(2) 推荐(0)
摘要: 上一篇我们介绍了 KV Cache:它把每一步重复的 K、V 计算存进缓存,让自回归推理的计算量骤降。 但这个加速不是没有代价的。KV Cache 的大小正比于多项参数,因此又反过来推动了注意力结构本身的改进。 这便是本篇内容:分组查询注意力(Grouped-Query Attention,GQA) 阅读全文
posted @ 2026-06-09 11:10 哥布林学者 阅读(167) 评论(0) 推荐(0)
摘要: 上一篇我们介绍了 SwiGLU,通过引入门控机制让 FFN 能够根据输入动态筛选信息,取代了标准 Transformer 沿用多年的单通路结构。 前两篇的内容都关于结构上的优化,本篇则关于一个核心工程优化。 我们知道,即使是现在的多数大模型,其生成回答的逻辑仍然是自回归生成,即逐个字往外蹦。 因此, 阅读全文
posted @ 2026-06-08 13:02 哥布林学者 阅读(190) 评论(0) 推荐(3)
摘要: 上一篇我们看了现代大模型对归一化的改造。 RMSNorm 去掉了均值中心化,只保留均方根缩放:一个沿用多年的标准组件,拆开一看,其中一部分工作在现代整体架构中已经有些多余了。 本篇来看第二个改动:Transformer 架构中的 FFN (MLP) 层的重构,而其具体内容,需要先从激活函数说起。 1 阅读全文
posted @ 2026-06-04 15:54 哥布林学者 阅读(261) 评论(0) 推荐(0)
摘要: 上一篇我们介绍了旋转位置编码 RoPE ,它通过在 QK 点积中注入旋转矩阵,让注意力自然而然地感知到相对位置。如今 RoPE 已经成为几乎所有主流开源大模型的位置编码标准。 但位置编码只是现代大模型改造的一个环节。 如果把标准 Transformer 和今天的大模型放在一起对比,就会发现归一化方式 阅读全文
posted @ 2026-06-01 20:35 哥布林学者 阅读(172) 评论(0) 推荐(0)
摘要: 上一篇我们回到 Swin 补上了它的二维 RPE 方案,用紧凑偏置表实现了高效的二维相对位置编码。 至此,从 Shaw 的加法型、Transformer-XL 的四项重构式、再到 T5 的偏置型,Swin 的二维扩展,每种方案都在尝试不同的方法来实现 RPE。 最终,在 NLP 这个 RPE 的"原 阅读全文
posted @ 2026-05-29 16:45 哥布林学者 阅读(161) 评论(0) 推荐(1)
摘要: 自打有了 第一次的实践之后,现在有什么简单需求我都会尝试自己做一做,只要不涉及API,纯本地化的工具相对来说还是比较容易的。 1. 总结 得益于这次的目标非常简单,同样简单总结一下: 用时:不到两小时。 配置:Claude code 接 dsV4-flash 花费:0.59¥,换算约 1400 万 阅读全文
posted @ 2026-05-27 09:49 哥布林学者 阅读(347) 评论(0) 推荐(1)
摘要: 本篇算法仓位:harris 1. 拼接算法现状 首先先需要说明的是,不同于我们之前介绍的 CV 和 NLP,在这些领域中,DL 方法已经成为绝对主流,传统机器学习和统计学方法更多只作为思想上的参考。 其根本原因还是我们之前提到过的: DL 本质上是数据驱动的方法,而这些领域恰恰拥有海量数据,从而使模 阅读全文
posted @ 2026-05-25 22:21 哥布林学者 阅读(165) 评论(0) 推荐(0)
摘要: 新分类,不再只说纯理论了,我同步维护一个 github 仓库,也方便自己跑跑代码,有兴趣可以关注一下。 1. 扫推式成像 (Push broom Imaging) 在之前的 光谱融合中提到过,现有技术很难一次获取兼顾高光谱分辨率和高空间分辨率的图像。 概括来说可以理解为相机里的二维传感器难以完整采集 阅读全文
posted @ 2026-05-22 19:19 哥布林学者 阅读(166) 评论(0) 推荐(0)