会员
周边
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
Goblinscholar
博客园
首页
新随笔
联系
订阅
管理
[置顶]
吴恩达深度学习课程:深度学习入门笔记全集目录
摘要: 课程 周数 类别 内容 课程一:神经网络和深度学习 第一周:深度学习简介 理论 (1)深度学习简介 实践 无 第二周:神经网络基础 理论 (1)回归基础 (2)分类与逻辑回归 (3)梯度下降法 (4)损失函数与传播 (5)向量化 (6)向量化的反向传播 实践 E & C 第三周:浅层神经网络 理论
阅读全文
posted @ 2026-02-06 18:22 哥布林学者
阅读(1383)
评论(0)
推荐(1)
2026年6月19日
深度学习进阶(三十一)FlashAttention:IO 感知的精确注意力
摘要: 上一篇我们把现代大模型的五个核心模块拼回了 LLaMA 这个完整案例中,可以看到注意力机制仍然是计算最密集的部分。 而这个密集程度在序列变长时,会变得越来越恐怖: 标准自注意力的计算复杂度和空间复杂度都是 \(O(n^2)\):序列长度翻倍,计算量翻四倍,内存占用也翻四倍。 而在之前,我们用 KV
阅读全文
posted @ 2026-06-19 16:31 哥布林学者
阅读(120)
评论(0)
推荐(0)
2026年6月16日
深度学习进阶(三十)从 Transformer 到 LLaMA:现代 LLM 架构总览
摘要: 上一篇我们介绍了 GQA,通过分组共享 KV Head,在注意力质量和推理效率之间找到了实际的平衡点。 至此,从第 25 篇到第 29 篇,我们分别拆解了现代大模型的五个核心设计模块: RoPE:旋转位置编码,让 QK 点积天然感知相对位置。 RMSNorm:去掉均值中心化的简化归一化。 SwiGL
阅读全文
posted @ 2026-06-16 17:19 哥布林学者
阅读(157)
评论(2)
推荐(0)
2026年6月9日
深度学习进阶(二十九)现代 LLM 的核心架构设计其四:GQA
摘要: 上一篇我们介绍了 KV Cache:它把每一步重复的 K、V 计算存进缓存,让自回归推理的计算量骤降。 但这个加速不是没有代价的。KV Cache 的大小正比于多项参数,因此又反过来推动了注意力结构本身的改进。 这便是本篇内容:分组查询注意力(Grouped-Query Attention,GQA)
阅读全文
posted @ 2026-06-09 11:10 哥布林学者
阅读(167)
评论(0)
推荐(0)
2026年6月8日
深度学习进阶(二十八)现代 LLM 的核心架构设计其三:Decoder-Only 下的 KV Cache
摘要: 上一篇我们介绍了 SwiGLU,通过引入门控机制让 FFN 能够根据输入动态筛选信息,取代了标准 Transformer 沿用多年的单通路结构。 前两篇的内容都关于结构上的优化,本篇则关于一个核心工程优化。 我们知道,即使是现在的多数大模型,其生成回答的逻辑仍然是自回归生成,即逐个字往外蹦。 因此,
阅读全文
posted @ 2026-06-08 13:02 哥布林学者
阅读(190)
评论(0)
推荐(3)
2026年6月4日
深度学习进阶(二十七)现代 LLM 的核心架构设计其二:SwiGLU
摘要: 上一篇我们看了现代大模型对归一化的改造。 RMSNorm 去掉了均值中心化,只保留均方根缩放:一个沿用多年的标准组件,拆开一看,其中一部分工作在现代整体架构中已经有些多余了。 本篇来看第二个改动:Transformer 架构中的 FFN (MLP) 层的重构,而其具体内容,需要先从激活函数说起。 1
阅读全文
posted @ 2026-06-04 15:54 哥布林学者
阅读(261)
评论(0)
推荐(0)
2026年6月1日
深度学习进阶(二十六)现代 LLM 的核心架构设计其一:RMSNorm
摘要: 上一篇我们介绍了旋转位置编码 RoPE ,它通过在 QK 点积中注入旋转矩阵,让注意力自然而然地感知到相对位置。如今 RoPE 已经成为几乎所有主流开源大模型的位置编码标准。 但位置编码只是现代大模型改造的一个环节。 如果把标准 Transformer 和今天的大模型放在一起对比,就会发现归一化方式
阅读全文
posted @ 2026-06-01 20:35 哥布林学者
阅读(172)
评论(0)
推荐(0)
2026年5月29日
深度学习进阶(二十五)RoPE:现代 NLP 的位置编码范式
摘要: 上一篇我们回到 Swin 补上了它的二维 RPE 方案,用紧凑偏置表实现了高效的二维相对位置编码。 至此,从 Shaw 的加法型、Transformer-XL 的四项重构式、再到 T5 的偏置型,Swin 的二维扩展,每种方案都在尝试不同的方法来实现 RPE。 最终,在 NLP 这个 RPE 的"原
阅读全文
posted @ 2026-05-29 16:45 哥布林学者
阅读(161)
评论(0)
推荐(1)
2026年5月27日
vibe coding(二)Where you go:一个微型 windows 桌面覆盖工具
摘要: 自打有了 第一次的实践之后,现在有什么简单需求我都会尝试自己做一做,只要不涉及API,纯本地化的工具相对来说还是比较容易的。 1. 总结 得益于这次的目标非常简单,同样简单总结一下: 用时:不到两小时。 配置:Claude code 接 dsV4-flash 花费:0.59¥,换算约 1400 万
阅读全文
posted @ 2026-05-27 09:49 哥布林学者
阅读(347)
评论(0)
推荐(1)
2026年5月25日
高光谱拼接算法(二)Harris 角点探测
摘要: 本篇算法仓位:harris 1. 拼接算法现状 首先先需要说明的是,不同于我们之前介绍的 CV 和 NLP,在这些领域中,DL 方法已经成为绝对主流,传统机器学习和统计学方法更多只作为思想上的参考。 其根本原因还是我们之前提到过的: DL 本质上是数据驱动的方法,而这些领域恰恰拥有海量数据,从而使模
阅读全文
posted @ 2026-05-25 22:21 哥布林学者
阅读(165)
评论(0)
推荐(0)
2026年5月22日
高光谱拼接算法(一)扫推式成像和航带拼接算法
摘要: 新分类,不再只说纯理论了,我同步维护一个 github 仓库,也方便自己跑跑代码,有兴趣可以关注一下。 1. 扫推式成像 (Push broom Imaging) 在之前的 光谱融合中提到过,现有技术很难一次获取兼顾高光谱分辨率和高空间分辨率的图像。 概括来说可以理解为相机里的二维传感器难以完整采集
阅读全文
posted @ 2026-05-22 19:19 哥布林学者
阅读(166)
评论(0)
推荐(0)
下一页
公告