深度学习进阶 - 随笔分类 - 哥布林学者

深度学习进阶（十一）Position-Sensitive RoI Pooling

摘要：在上一篇中，我们已经解决了一个关键问题： RoI Pooling 的误差主要来源于“坐标量化”，而 RoI Align 通过去除取整 + 双线性插值，有效缓解了这一问题。但说到底，这只是一个对齐问题上的改进，我们在上篇的末尾也提到了新的方向：能不能让采样过程，具备一定的结构感知能力？实际上，早阅读全文

posted @ 2026-04-24 15:19 哥布林学者阅读(72) 评论(0) 推荐(1)

深度学习进阶（十） RoI Align

摘要：在上一篇中，我们已经明确指出： RoI Pooling 的核心问题并不在于 Pooling 本身，而在于“取整导致的量化误差”。那么，一个非常直接的思路就是：既然误差来自“取整”，那就不要取整。这正是 RoI Align 的出发点。 1. RoI Align 的提出和思想 RoI Align 阅读全文

posted @ 2026-04-21 14:45 哥布林学者阅读(79) 评论(0) 推荐(0)

深度学习进阶（九）池化技术的初步改进：RoI Pooling

摘要：在上一篇里，我们已经完整介绍了 Swin Transformer 的模型逻辑，知道了：Swin Transformer 的核心，并不是简单地“模仿 CNN”，而是在保留归纳偏置的同时，让建模方式更加灵活。换句话说，它做的事情是：在“约束”与“自由”之间找到一个平衡点。而在上一篇的末尾，我们也提阅读全文

posted @ 2026-04-19 13:47 哥布林学者阅读(113) 评论(0) 推荐(0)

深度学习进阶（八）Swin Transformer

摘要：在上一篇中，我们已经明确了 DeiT 对 ViT 的改进思路：通过蒸馏，引入 Teacher 的归纳偏置，缓解数据依赖问题。但这条路线有一个明显局限：它并没有改变 Transformer 本身的结构。换句话说，DeiT 本身依然是一个全局 attention、无层级结构、内部缺乏局部归纳偏置阅读全文

posted @ 2026-04-15 21:41 哥布林学者阅读(171) 评论(0) 推荐(0)

深度学习进阶（七）Data-efficient Image Transformer

摘要：在前面的分析中，我们已经明确了 ViT 的核心问题：由于归纳偏置较弱，ViT 对数据规模高度依赖。就这个问题，我们又展开了一种改进思路：通过蒸馏人为引入一个“软约束”，缩小搜索空间，从而减少数据依赖。于是，我们就得到了 ViT 的其中一种改进：Data-efficient Image Tra 阅读全文

posted @ 2026-04-13 16:53 哥布林学者阅读(147) 评论(1) 推荐(0)

深度学习进阶（六）归纳偏置与蒸馏

摘要：在上一篇，我们已经完成了 Vision Transformer的完整逻辑：把图像切成 patch 当作 token，送入 Transformer Encoder 做全局建模。但我们也提到了， ViT 存在一个绕不开的痛点：没有足够大的数据规模，ViT 往往很难训练得好。而用范式角度来说，这是因阅读全文

posted @ 2026-04-10 17:01 哥布林学者阅读(164) 评论(0) 推荐(0)

深度学习进阶（五）Vision Transformer

摘要：在上一篇，我们已经完整介绍了原始 Transformer 的结构和整体传播逻辑。从结果上看，Transformer 在 NLP 领域带来了范式级的突破：通过自注意力机制实现了对序列的全局建模能力。然而，实际上，原始 Transformer 依然只是一个面向序列数据的模型。自然而然地，这种全新的阅读全文

posted @ 2026-04-08 21:43 哥布林学者阅读(176) 评论(0) 推荐(0)

深度学习进阶（四）Transformer 整体结构

摘要：在上一篇中，我们已经完整展开了 Transformer Block 的内部结构，包括多头注意力、残差连接、LayerNorm 以及 FFN。至此，就可以正式进入 Transformer 的整体结构了。在原论文中，Transformer 本身仍是 Encoder–Decoder 架构，其中编码器的阅读全文

posted @ 2026-04-06 09:19 哥布林学者阅读(404) 评论(0) 推荐(0)

深度学习进阶（三）Transformer Block

摘要：在上一篇我们已经完成了多头自注意力机制的内容，并知道了它是 Transformer Block 中的一个子模块。 Transformer Block 是 Transformer 模型的核心计算单元，它不仅创造并应用了多头自注意力机制，还结合了残差学习、归一化等多门技术。先简单概括一下 Transf 阅读全文

posted @ 2026-04-04 17:03 哥布林学者阅读(217) 评论(0) 推荐(1)

深度学习进阶（二）多头自注意力机制（Multi-Head Attention）

摘要：在第一篇中，我们已经得到了自注意力的核心公式： \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) 阅读全文

posted @ 2026-04-02 13:33 哥布林学者阅读(731) 评论(0) 推荐(1)

深度学习进阶（一）从注意力到自注意力

摘要：新分类续接之前的注意力机制内容开始，展开一些更现代的理论。在之前的深度学习内容中，我们已经介绍了注意力机制的核心流程，其本质可以概括为：在解码的每一个时间步增加注意力计算得到上下文向量，让模型可以根据当前状态，从输入序列中动态选择相关信息。实际上，你会发现：在这个传播过程中，传统的注意力机制只是阅读全文

posted @ 2026-03-31 12:45 哥布林学者阅读(489) 评论(1) 推荐(1)

Loading

Goblinscholar

随笔分类 - 深度学习进阶

公告