YOLOv11 改进 - C2PSA | C2PSA融合TSSA(Token Statistics Self-Attention)令牌统计自注意力，优化遮挡目标感知

前言

本文介绍了Token Statistics Self-Attention（TSSA）机制，并将其集成到YOLOv11中。传统自注意力计算复杂度高，TSSA进行了范式转变，基于token统计特征实现高效注意力交互。它通过“算法展开”推导得出，以“最大编码率降低”为目标，实现特征学习。TSSA包含动态分组和低秩投影优化两步创新，具备线性复杂度。我们将TSSA代码集成到YOLOv11的C2PSA模块中。实验表明，改进后的YOLOv11在目标检测任务中表现良好，验证了TSSA机制的有效性。

文章目录： YOLOv11改进大全：卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

摘要

注意力算子可以说是 Transformer 架构的关键特征，该架构在多种任务中都表现出了最先进的性能。然而，Transformer 的注意力算子通常会带来巨大的计算负担，其计算复杂度随 Token 数量呈二次方增长。在这项工作中，我们提出了一种新型的 Transformer 注意力算子，其计算复杂度随 Token 数量呈线性增长。我们将之前的研究成果进行了扩展，之前的研究表明，通过“白盒”架构设计可以自然地构建出 Transformer 风格的架构，即网络的每一层都被设计为实现最大编码率降低目标（$MCR^{2}$）的一个增量优化步骤。具体来说，我们推导了 $MCR^{2}$ 目标的一种新颖变分形式，并展示了基于该变分目标进行展开梯度下降所得到的架构，导出了一种新的注意力模块，称为 Token 统计自注意力（Token Statistics Self-Attention，TSSA）。TSSA 具有线性的计算和内存复杂度，并且与计算 Token 之间成对相似度的典型注意力架构截然不同。在视觉、语言和长序列任务上的实验表明，只需简单地用 TSSA 替换标准自注意力（我们将这种架构称为 Token 统计 Transformer，即 TOST），就能获得与传统 Transformer 相当的性能，同时计算效率更高且更具可解释性。我们的结果还在一定程度上质疑了“成对相似度风格的注意力机制是 Transformer 架构成功的关键”这一传统观念。代码将在 https://github.com/RobinWu218/ToST 开源。

文章链接

论文地址：论文地址

代码地址：代码地址

基本原理

TSSA（Token Statistics Self-Attention）的核心创新是彻底抛弃传统自注意力的“成对相似度计算”，转而基于token的统计特征实现高效注意力交互：

1. 从“逐对对比”到“统计聚合”的范式转变

传统自注意力需要计算所有token两两之间的相似度（如缩放点积），导致复杂度随token数量呈平方增长。TSSA跳出这一框架，认为注意力的本质是“基于数据关联的特征优化”，而这种关联无需逐对计算——只需捕捉token群体的统计规律（即“二阶矩”，可理解为token特征的分布集中程度），就能实现类似的特征聚合效果。

2. 基于“白盒设计”的目标导向优化

TSSA并非经验性设计，而是通过“算法展开”的白盒思路推导得出：以“最大编码率降低（MCR²）”为核心目标，先将该目标转化为更易计算的变分形式，再把优化过程拆分成网络的逐层操作。每一层的作用都是增量优化这个目标——让同一组内的token特征更集中（压缩），同时让所有token的整体特征更分散（扩展），最终实现 discriminative 特征学习。

3. 数据驱动的低秩投影与动态分组

TSSA的核心操作包含两步关键创新：

动态分组：通过计算token与不同子空间的匹配度，用软聚类（类似概率分配）将token分到K个组，无需人工定义分组规则，完全由数据自动决定。
低秩投影优化：对每个组，基于token特征的统计信息构建“重要性权重”，保留组内特征中“能量集中”（即多数token共同拥有）的方向，抑制冗余或噪声方向。这一过程不依赖任何成对相似度，仅通过矩阵投影和统计计算完成，天然具备线性复杂度。

posted @ 2025-12-25 22:49 魔改工程师阅读(8) 评论(0) 收藏举报

刷新页面返回顶部

YOLOv8创新改进