在上一篇里,我们已经完整介绍了 Swin Transformer 的模型逻辑,知道了:Swin Transformer 的核心,并不是简单地“模仿 CNN”,而是在保留归纳偏置的同时,让建模方式更加灵活。 换句话说,它做的事情是: 在“约束”与“自由”之间找到一个平衡点。 而在上一篇的末尾,我们也提 ...
在上一篇中,我们已经明确了 DeiT 对 ViT 的改进思路: 通过蒸馏,引入 Teacher 的归纳偏置,缓解数据依赖问题。 但这条路线有一个明显局限: 它并没有改变 Transformer 本身的结构。 换句话说,DeiT 本身依然是一个全局 attention、无层级结构、内部缺乏局部归纳偏置 ...
在前面的分析中,我们已经明确了 ViT 的核心问题: 由于归纳偏置较弱,ViT 对数据规模高度依赖。 就这个问题,我们又展开了一种改进思路: 通过蒸馏人为引入一个“软约束”,缩小搜索空间,从而减少数据依赖。 于是,我们就得到了 ViT 的其中一种改进:Data-efficient Image Tra ...
在上一篇,我们已经完成了 Vision Transformer的完整逻辑:把图像切成 patch 当作 token,送入 Transformer Encoder 做全局建模。 但我们也提到了, ViT 存在一个绕不开的痛点: 没有足够大的数据规模,ViT 往往很难训练得好。 而用范式角度来说,这是因 ...
在上一篇,我们已经完整介绍了原始 Transformer 的结构和整体传播逻辑。 从结果上看,Transformer 在 NLP 领域带来了范式级的突破:通过自注意力机制实现了对序列的全局建模能力。 然而,实际上,原始 Transformer 依然只是一个面向序列数据的模型。 自然而然地,这种全新的 ...
在上一篇中,我们已经完整展开了 Transformer Block 的内部结构,包括多头注意力、残差连接、LayerNorm 以及 FFN。 至此,就可以正式进入 Transformer 的整体结构了。 在原论文中,Transformer 本身仍是 Encoder–Decoder 架构,其中编码器的 ...
在上一篇我们已经完成了多头自注意力机制的内容,并知道了它是 Transformer Block 中的一个子模块。 Transformer Block 是 Transformer 模型的核心计算单元,它不仅创造并应用了多头自注意力机制,还结合了残差学习、归一化等多门技术。 先简单概括一下 Transf ...
在第一篇中,我们已经得到了自注意力的核心公式: \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) ...
新分类续接之前的注意力机制内容开始,展开一些更现代的理论。 在之前的深度学习内容中,我们已经介绍了注意力机制的核心流程,其本质可以概括为:在解码的每一个时间步增加注意力计算得到上下文向量,让模型可以根据当前状态,从输入序列中动态选择相关信息。 实际上,你会发现:在这个传播过程中,传统的注意力机制只是 ...
本文介绍了一套基于YOLO系列算法的麦穗计数系统,该系统支持图片、视频和实时摄像头的多模态检测。系统采用PyQt5开发前端界面,内置YOLOv5/v8/v11/v12等多种模型,用户可灵活切换并调节置信度。技术分析显示,YOLO12n模型表现最优(mAP40.6%),YOLO11n速度最快(56.1... ...
在上一篇里,我们介绍了光谱重建的相关内容。这一类方法的核心问题是:当光谱信息缺失时,如何从“有限观测”中恢复完整光谱。 但在实际应用中,还还还存在另一类同样常见的情况: 我们并不是“没有数据”,而是“拥有多种不完整但彼此互补的数据”。 要解释这种情况,就需要先补充一点硬件知识: 在相机传感器中,一个 ...
本视频演示了一套基于YOLO算法的焊缝质量检测系统,包含用户登录、注册、多模态检测等功能模块。系统支持图片、视频及实时检测,具备结果保存和模型切换能力。技术栈采用Python3.10+PyQt5+SQLite,集成YOLOv5/v8/v11/v12多版本模型。实验表明,YOLO12n在COCO数据集... ...
在前面的内容里,我们已经围绕高光谱数据的降维、检测与解混展开了很多方法。 这些方法其实都有一个共同点: 它们都假设光谱数据是“已知且完整”的。 但在实际应用中,这个假设往往并不成立。 例如传感器只能采集少量波段、成像设备成本或带宽受限、数据存在缺失或严重噪声或者仅有 RGB 图像,却希望获得高光谱信 ...
在上一篇中,我们简单了解了提取端元光谱的基础方法,从而可以应用在我们前面介绍过的 MF 和 ACE 等经典高光谱目标检测方法中。这类方法的共同特点在于:需要预先给定目标光谱 \(\mathbf{s}\),再通过不同的判别准则衡量像素与目标之间的匹配程度,从而实现目标检测,我们称之为目标检测算法。 但 ...
当你的朋友推荐餐厅时,你已经在进行贝叶斯推理——只是你没意识到而已 引言:为什么82%的医生会答错? 在医学教育中有一个经典案例:当医生们面对乳腺癌筛查问题时,82%的人给出了错误答案。 问题是这样描述的:1%的女性患有乳腺癌,筛查测试的灵敏度为80%(真阳性率),假阳性率为9.6%。 如果一位女性 ...
本文介绍了基于YOLO算法的黄瓜检测系统,该系统集成了YOLOv5/v8/v11/v12四种模型,提供多模态检测、结果保存和模型切换等功能。系统采用Python3.10+PyQt5+SQLite技术栈,支持用户管理、数据可视化等交互操作。通过对比测试,YOLO12n在精度上表现最优(mAP40.6%... ...
在上一篇中,我们已经介绍了光谱解混的基本思想。光谱解混通常以 LMM 为基础模型,其一个像素的光谱被表示为多个端元光谱的线性组合: \[\mathbf{x} = \sum_{i=1}^{p} a_i \mathbf{s}_i + \mathbf{n} \]\(\mathbf{s}_i\) 就是第 \ ...
论文:[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 概述 Vision Transformer (ViT) 将标准 Transformer 架构直接应用于图像分类任务。模 ...
在之前的内容中,我们已经介绍了 LMM 的基本思想及其相关概念。根据这一模型,高光谱图像中每个像素的观测光谱都可以表示为若干端元光谱的线性组合。 而在此基础上,MF 和 ACE 这类高光谱目标检测算法,其实可以看作 LMM 的一种特殊应用形式。这类方法通过估计背景像素的统计特性,构建针对目标光谱的滤 ...
本文介绍了一个基于YOLO算法的工程车辆检测系统,该系统融合了YOLOv5/v8/v11/v12等多种模型,能高效识别复杂场景中的工程车辆。系统具备用户管理、多模态检测(图片/视频/摄像头)、结果保存导出等功能,并支持模型切换。技术分析显示YOLOv12精度最高(mAP40.6%),YOLOv11速... ...