刷新
高光谱拼接算法(一)扫推式成像和航带拼接算法

博主头像 新分类,不再只说纯理论了,我同步维护一个 github 仓库,也方便自己跑跑代码,有兴趣可以关注一下。 1. 扫推式成像 (Push broom Imaging) 在之前的 光谱融合中提到过,现有技术很难一次获取兼顾高光谱分辨率和高空间分辨率的图像。 概括来说可以理解为相机里的二维传感器难以完整采集 ...

深度学习进阶(二十四)Swin 的二维 RPE

博主头像 上一篇我们介绍了 T5 的偏置型 RPE,仅仅使用一个标量偏置,配合分桶策略,就用极低的复杂度实现了 NLP 的高效位置编码。 而下一个问题就是: 一维序列上的标量偏置,到了二维图像上要怎么做? 这一篇我们来补上之前的 Swin Transformer 中一个当时没有展开的细节:二维 RPE。 1. ...

深度学习进阶(二十三)偏置型 RPE

博主头像 上一篇我们介绍了 T5 的主干逻辑,实际上,T5 的核心理念可以概括为“统一、简化” 。 那么问题来了: 一个追求统一和简洁的框架,会选择什么样的位置编码? 最终,T5 没有走 Transformer-XL 的四项重构路线,也没有沿用原始的加法型 RPE,而是提出了一种极简的方案:偏置型 RPE。 ...

深度学习进阶(二十二)T5:NLP任务的首次大一统

博主头像 上一篇我们完整展开了 Transformer-XL 的四项重构式 RPE,它通过把内容和位置分开建模,让位置信息真正参与到了注意力计算中。 但看完那个复杂的公式后,有这样一个问题: 为了位置信息,我们真的需要把自注意力拆成四项吗? 这并非无端质疑, 2020 年的论文: Exploring the ...

深度学习进阶(二十一)跨窗口的 RPE

博主头像 上一篇我们介绍了 Transformer-XL 的段级递归和记忆缓存机制,也留下了一个问题: Memory 让不同 segment 可以互相看到,但配套的位置编码逻辑却并不完善。 这一篇就来展开 Transformer-XL 配套的改进方案:跨窗口的相对位置编码。 1. 为什么要提出跨窗口的 RPE ...

深度学习进阶(十九)相对位置编码 RPE

博主头像 上一篇我们介绍了坐标注意力 CA,它通过沿两个方向分别池化来保留空间位置信息。 同样,我们可以总结一下它实现混合注意力的逻辑: CA 的做法本质上是一种隐式编码,它通过池化整合空间特征,学习权重并注入的逻辑让模型间接感知到空间信息,实现混合注意力。 如果再站高点,我们会发现一个更基础的问题: 模型究 ...

"CREAD: A Classification-Restoration Framework with Error Adaptive Discretization for Watch Time Prediction in Video Recommender Systems" 论文笔记

博主头像 快手视频观时预测的工作 CREAD,发表于 AAAI 2024,深入分析了分桶策略,在理论上是一篇很棒的工作 背景 观看时长预测本质上是个回归问题,但它的标签分布通常极其长尾:大量样本集中在很短的时长(比如 3 秒内占 30%),而长时长的样本非常稀疏。这种不平衡性让直接做回归很难,模型容易被头部样 ...

深度学习进阶(十八)坐标注意力 CA

博主头像 上一篇我们介绍了 ECA,它用一维卷积替代了 SE 中的 MLP bottleneck,用更少的参数实现了更好的通道注意力。 但实际上,这套框架里还有别的优化空间: 在前面的内容里,无论是 SE 、 CBAM 还是 ECA ,它们的通道注意力子模块第一步都是 全局平均池化(CBAM 额外加入了最大池 ...

"Deconfounding Duration Bias in Watch-time Prediction for Video Recommendation" 论文笔记

博主头像 快手视频观时预测的工作 D2Q,发表于 KDD 2022,用直观有效的分桶方式解决观时预测的 duration bias,这么多年了依旧是线上最能打的工作 背景 观看时长(watch time)是视频推荐中的重要指标之一,提升整体观看时长是视频推荐系统的主要目标。观看时长主要受两个因素的影响:用户是 ...

深度学习进阶(十七)高效通道注意力 ECA

博主头像 上一篇我们介绍了 CBAM,它在 SE 的基础上加入了空间注意力,形成了"通道 + 空间"的混合注意力机制。 我们发现,无论是 SE 还是 CBAM,它们的通道注意力子模块都采用了一个 bottleneck 结构的 MLP,即先将通道维度从 \(C\) 压缩到 \(C/r\),再升维回 \(C\)。 ...

深度学习进阶(十六) 混合注意力 CBAM

博主头像 上一篇我们介绍了 SE 模块,从通道维度引入了注意力机制,让网络能够自适应地调整每个通道的权重。 再结合之前的相关内容,现在我们已经对通道维度和空间维度上的注意力逻辑都有所了解了,显然二者并不冲突,反而是相辅相成的,因此一个想法自然就出现了: 组合应用通道注意力和空间注意力,实现混合注意力机制。 沿 ...

深度学习进阶(十五)通道注意力 SE

博主头像 至此,在之前的内容里,我们已经介绍了传统卷积网络和 Transformer 架构两条路线在 CV 任务中的发展研究。 实际上,我们可以这样总结一下: 无论是 Transformer 的注意力机制,还是 CNN 的诸多创新,它们其实都在回答同一个问题:模型应该关注哪里(空间)和关注什么(通道)。 也可 ...

深度学习进阶(十四)ConvNeXt

博主头像 在之前的内容里,我们展开了 CNN 的一些演进,知道 CNN 本身也在不断发展。 现在我们再绕回 Transformer :在 21 年 Swin Transformer发表后,以它为代表的诸多 ViT 工作,已经在多个视觉任务上全面超越传统 CNN。 这带来了一个非常现实的思考: 就像珍妮机淘汰手 ...

深度学习进阶(十三)可变形卷积 DCN

博主头像 之前的内容里,我们提出了让 CNN 更灵活的想法: 能不能让“采样位置”本身,变成可以学习的? 在上一篇里,我们已经用可变形池化实现了这一目标。但同时我们也提到了,这并非终点: 既然池化可以偏移采样,那更基础的卷积本身为什么不能? 这便是 Deformable Convolutional Netwo ...

3分钟看懂p值和置信区间:别再被_显著_忽悠了

博主头像 不知道你有没有这种感觉:刷到某些“研究报告”或“产品测试”时,经常看到两句话—— “差异具有统计学意义(p<0.05)” “置信区间为95%” 然后文章就得出结论:这个新药有效、这个训练营有用、这个护肤成分牛掰。 但你心里是不是犯嘀咕:到底啥叫“统计显著”? 它跟“实际有用”是一回事吗? 今天咱就掰 ...

深度学习进阶(十二)可变形池化 deformable RS RoI Pooling

博主头像 在上一篇中,我们已经得出了一个非常关键的结论: 无论是 RoI Align 还是 PS RoI Pooling,本质上都在“改进采样方式”,但它们的采样规则仍然是“人为设计的”,也就是固定的。 因此我们提出了新的想法: 能不能让“采样位置”本身,变成可以学习的? 这种想法的实现结果之一就是 Defo ...

深度学习进阶(十一)Position-Sensitive RoI Pooling

博主头像 在上一篇中,我们已经解决了一个关键问题: RoI Pooling 的误差主要来源于“坐标量化”,而 RoI Align 通过去除取整 + 双线性插值,有效缓解了这一问题。 但说到底,这只是一个对齐问题上的改进,我们在上篇的末尾也提到了新的方向: 能不能让采样过程,具备一定的结构感知能力? 实际上,早 ...

深度学习进阶(十) RoI Align

博主头像 在上一篇中,我们已经明确指出: RoI Pooling 的核心问题并不在于 Pooling 本身,而在于“取整导致的量化误差”。 那么,一个非常直接的思路就是: 既然误差来自“取整”,那就不要取整。 这正是 RoI Align 的出发点。 1. RoI Align 的提出和思想 RoI Align ...

123···12>