机器学习 - 第2页 - 网站分类

深度学习进阶（二十三）偏置型 RPE

上一篇我们介绍了 T5 的主干逻辑，实际上，T5 的核心理念可以概括为“统一、简化” 。那么问题来了：一个追求统一和简洁的框架，会选择什么样的位置编码？最终，T5 没有走 Transformer-XL 的四项重构路线，也没有沿用原始的加法型 RPE，而是提出了一种极简的方案：偏置型 RPE。 ...

深度学习进阶（二十二）T5：NLP任务的首次大一统

上一篇我们完整展开了 Transformer-XL 的四项重构式 RPE，它通过把内容和位置分开建模，让位置信息真正参与到了注意力计算中。但看完那个复杂的公式后，有这样一个问题：为了位置信息，我们真的需要把自注意力拆成四项吗？这并非无端质疑， 2020 年的论文： Exploring the ...

深度学习进阶（二十一）跨窗口的 RPE

上一篇我们介绍了 Transformer-XL 的段级递归和记忆缓存机制，也留下了一个问题： Memory 让不同 segment 可以互相看到，但配套的位置编码逻辑却并不完善。这一篇就来展开 Transformer-XL 配套的改进方案：跨窗口的相对位置编码。 1. 为什么要提出跨窗口的 RPE ...

深度学习进阶（二十）Transformer-XL

在[上一篇]中，我们提到 RPE 提出后出现了分裂式的发展趋势，而按时间来讲，对 RPE 的初次改进出自 19 年的论文： Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context ，即超长上下文的 Transfo ...

深度学习进阶（十九）相对位置编码 RPE

上一篇我们介绍了坐标注意力 CA，它通过沿两个方向分别池化来保留空间位置信息。同样，我们可以总结一下它实现混合注意力的逻辑： CA 的做法本质上是一种隐式编码，它通过池化整合空间特征，学习权重并注入的逻辑让模型间接感知到空间信息，实现混合注意力。如果再站高点，我们会发现一个更基础的问题：模型究 ...

"CREAD: A Classification-Restoration Framework with Error Adaptive Discretization for Watch Time Prediction in Video Recommender Systems" 论文笔记

快手视频观时预测的工作 CREAD，发表于 AAAI 2024，深入分析了分桶策略，在理论上是一篇很棒的工作背景观看时长预测本质上是个回归问题，但它的标签分布通常极其长尾：大量样本集中在很短的时长（比如 3 秒内占 30%），而长时长的样本非常稀疏。这种不平衡性让直接做回归很难，模型容易被头部样 ...

"A Deep Probabilistic Model for Customer Lifetime Value Prediction" 论文笔记

谷歌非常经典的一篇 LTV 预测的工作 ZILN Loss，挂在了 Arxiv 上并未发表，用一个混合损失解决大量零值和高偏态连续值的数据分布问题背景现有 LTV 预测工作主要分为两种：一种是直接基于 MSE 建模 LTV；一种是两阶段建模，先用 BCE 建模付费概率，然后用 MSE 建模付费金 ...

深度学习进阶（十八）坐标注意力 CA

上一篇我们介绍了 ECA，它用一维卷积替代了 SE 中的 MLP bottleneck，用更少的参数实现了更好的通道注意力。但实际上，这套框架里还有别的优化空间：在前面的内容里，无论是 SE 、 CBAM 还是 ECA ，它们的通道注意力子模块第一步都是全局平均池化（CBAM 额外加入了最大池 ...

"Deconfounding Duration Bias in Watch-time Prediction for Video Recommendation" 论文笔记

快手视频观时预测的工作 D2Q，发表于 KDD 2022，用直观有效的分桶方式解决观时预测的 duration bias，这么多年了依旧是线上最能打的工作背景观看时长（watch time）是视频推荐中的重要指标之一，提升整体观看时长是视频推荐系统的主要目标。观看时长主要受两个因素的影响：用户是 ...

深度学习进阶（十七）高效通道注意力 ECA

上一篇我们介绍了 CBAM，它在 SE 的基础上加入了空间注意力，形成了"通道 + 空间"的混合注意力机制。我们发现，无论是 SE 还是 CBAM，它们的通道注意力子模块都采用了一个 bottleneck 结构的 MLP，即先将通道维度从 \(C\) 压缩到 \(C/r\)，再升维回 \(C\)。 ...

深度学习进阶（十六）混合注意力 CBAM

上一篇我们介绍了 SE 模块，从通道维度引入了注意力机制，让网络能够自适应地调整每个通道的权重。再结合之前的相关内容，现在我们已经对通道维度和空间维度上的注意力逻辑都有所了解了，显然二者并不冲突，反而是相辅相成的，因此一个想法自然就出现了：组合应用通道注意力和空间注意力，实现混合注意力机制。沿 ...

深度学习进阶（十五）通道注意力 SE

至此，在之前的内容里，我们已经介绍了传统卷积网络和 Transformer 架构两条路线在 CV 任务中的发展研究。实际上，我们可以这样总结一下：无论是 Transformer 的注意力机制，还是 CNN 的诸多创新，它们其实都在回答同一个问题：模型应该关注哪里（空间）和关注什么（通道）。也可 ...

深度学习进阶（十四）ConvNeXt

在之前的内容里，我们展开了 CNN 的一些演进，知道 CNN 本身也在不断发展。现在我们再绕回 Transformer ：在 21 年 Swin Transformer发表后，以它为代表的诸多 ViT 工作，已经在多个视觉任务上全面超越传统 CNN。这带来了一个非常现实的思考：就像珍妮机淘汰手 ...

深度学习进阶（十三）可变形卷积 DCN

之前的内容里，我们提出了让 CNN 更灵活的想法：能不能让“采样位置”本身，变成可以学习的？在上一篇里，我们已经用可变形池化实现了这一目标。但同时我们也提到了，这并非终点：既然池化可以偏移采样，那更基础的卷积本身为什么不能？这便是 Deformable Convolutional Netwo ...

3分钟看懂p值和置信区间：别再被_显著_忽悠了

不知道你有没有这种感觉：刷到某些“研究报告”或“产品测试”时，经常看到两句话—— “差异具有统计学意义（p<0.05）” “置信区间为95%” 然后文章就得出结论：这个新药有效、这个训练营有用、这个护肤成分牛掰。但你心里是不是犯嘀咕：到底啥叫“统计显著”？它跟“实际有用”是一回事吗？今天咱就掰 ...

深度学习进阶（十二）可变形池化 deformable RS RoI Pooling

在上一篇中，我们已经得出了一个非常关键的结论：无论是 RoI Align 还是 PS RoI Pooling，本质上都在“改进采样方式”，但它们的采样规则仍然是“人为设计的”，也就是固定的。因此我们提出了新的想法：能不能让“采样位置”本身，变成可以学习的？这种想法的实现结果之一就是 Defo ...

深度学习进阶（十一）Position-Sensitive RoI Pooling

在上一篇中，我们已经解决了一个关键问题： RoI Pooling 的误差主要来源于“坐标量化”，而 RoI Align 通过去除取整 + 双线性插值，有效缓解了这一问题。但说到底，这只是一个对齐问题上的改进，我们在上篇的末尾也提到了新的方向：能不能让采样过程，具备一定的结构感知能力？实际上，早 ...

深度学习进阶（十） RoI Align

在上一篇中，我们已经明确指出： RoI Pooling 的核心问题并不在于 Pooling 本身，而在于“取整导致的量化误差”。那么，一个非常直接的思路就是：既然误差来自“取整”，那就不要取整。这正是 RoI Align 的出发点。 1. RoI Align 的提出和思想 RoI Align ...

深度学习进阶（九）池化技术的初步改进：RoI Pooling

在上一篇里，我们已经完整介绍了 Swin Transformer 的模型逻辑，知道了：Swin Transformer 的核心，并不是简单地“模仿 CNN”，而是在保留归纳偏置的同时，让建模方式更加灵活。换句话说，它做的事情是：在“约束”与“自由”之间找到一个平衡点。而在上一篇的末尾，我们也提 ...

深度学习进阶（八）Swin Transformer

在上一篇中，我们已经明确了 DeiT 对 ViT 的改进思路：通过蒸馏，引入 Teacher 的归纳偏置，缓解数据依赖问题。但这条路线有一个明显局限：它并没有改变 Transformer 本身的结构。换句话说，DeiT 本身依然是一个全局 attention、无层级结构、内部缺乏局部归纳偏置 ...