随笔分类 - 深度学习进阶
摘要:在上一篇中,我们已经解决了一个关键问题: RoI Pooling 的误差主要来源于“坐标量化”,而 RoI Align 通过去除取整 + 双线性插值,有效缓解了这一问题。 但说到底,这只是一个对齐问题上的改进,我们在上篇的末尾也提到了新的方向: 能不能让采样过程,具备一定的结构感知能力? 实际上,早
阅读全文
摘要:在上一篇中,我们已经明确指出: RoI Pooling 的核心问题并不在于 Pooling 本身,而在于“取整导致的量化误差”。 那么,一个非常直接的思路就是: 既然误差来自“取整”,那就不要取整。 这正是 RoI Align 的出发点。 1. RoI Align 的提出和思想 RoI Align
阅读全文
摘要:在上一篇里,我们已经完整介绍了 Swin Transformer 的模型逻辑,知道了:Swin Transformer 的核心,并不是简单地“模仿 CNN”,而是在保留归纳偏置的同时,让建模方式更加灵活。 换句话说,它做的事情是: 在“约束”与“自由”之间找到一个平衡点。 而在上一篇的末尾,我们也提
阅读全文
摘要:在上一篇中,我们已经明确了 DeiT 对 ViT 的改进思路: 通过蒸馏,引入 Teacher 的归纳偏置,缓解数据依赖问题。 但这条路线有一个明显局限: 它并没有改变 Transformer 本身的结构。 换句话说,DeiT 本身依然是一个全局 attention、无层级结构、内部缺乏局部归纳偏置
阅读全文
摘要:在前面的分析中,我们已经明确了 ViT 的核心问题: 由于归纳偏置较弱,ViT 对数据规模高度依赖。 就这个问题,我们又展开了一种改进思路: 通过蒸馏人为引入一个“软约束”,缩小搜索空间,从而减少数据依赖。 于是,我们就得到了 ViT 的其中一种改进:Data-efficient Image Tra
阅读全文
摘要:在上一篇,我们已经完成了 Vision Transformer的完整逻辑:把图像切成 patch 当作 token,送入 Transformer Encoder 做全局建模。 但我们也提到了, ViT 存在一个绕不开的痛点: 没有足够大的数据规模,ViT 往往很难训练得好。 而用范式角度来说,这是因
阅读全文
摘要:在上一篇,我们已经完整介绍了原始 Transformer 的结构和整体传播逻辑。 从结果上看,Transformer 在 NLP 领域带来了范式级的突破:通过自注意力机制实现了对序列的全局建模能力。 然而,实际上,原始 Transformer 依然只是一个面向序列数据的模型。 自然而然地,这种全新的
阅读全文
摘要:在上一篇中,我们已经完整展开了 Transformer Block 的内部结构,包括多头注意力、残差连接、LayerNorm 以及 FFN。 至此,就可以正式进入 Transformer 的整体结构了。 在原论文中,Transformer 本身仍是 Encoder–Decoder 架构,其中编码器的
阅读全文
摘要:在上一篇我们已经完成了多头自注意力机制的内容,并知道了它是 Transformer Block 中的一个子模块。 Transformer Block 是 Transformer 模型的核心计算单元,它不仅创造并应用了多头自注意力机制,还结合了残差学习、归一化等多门技术。 先简单概括一下 Transf
阅读全文
摘要:在第一篇中,我们已经得到了自注意力的核心公式: \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right)
阅读全文
摘要:新分类续接之前的注意力机制内容开始,展开一些更现代的理论。 在之前的深度学习内容中,我们已经介绍了注意力机制的核心流程,其本质可以概括为:在解码的每一个时间步增加注意力计算得到上下文向量,让模型可以根据当前状态,从输入序列中动态选择相关信息。 实际上,你会发现:在这个传播过程中,传统的注意力机制只是
阅读全文

浙公网安备 33010602011771号