HAViT: Historical Attention Vision Transformer & Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis

论文日报 2026-03-25


精选论文

1. HAViT: Historical Attention Vision Transformer

论文信息

  • arXiv编号: 2603.18585
  • 作者: Swarnendu Banik, Manish Das, Shiv Ram Dubey, Satish Kumar Singh
  • 发表时间: 2026年3月19日
  • 会议: IEEE CAI 2026 (已接收)
  • 代码: https://github.com/banik-s/HAViT

研究背景
Vision Transformer (ViT) 在计算机视觉领域表现出色,但其注意力机制在各层之间独立运行,限制了层级间的信息流动和特征学习。现有方法未能有效利用历史注意力信息来优化深层特征表示。

核心贡献
提出一种有效的跨层注意力传播方法,通过在编码器层之间保留并整合历史注意力矩阵,改进Vision Transformer中层级间信息流动。该方法仅需少量架构改动,仅增加注意力矩阵的存储和混合操作。

研究方法

  1. 历史注意力矩阵保留与融合: 在每一编码层保留之前层的注意力矩阵,通过可学习的混合超参数α(最优值0.45)将当前层注意力与历史注意力进行加权融合
  2. 渐进式注意力细化: 随着网络层数加深,注意力模式基于历史信息逐步优化
  3. 轻量级架构改动: 仅需增加注意力矩阵存储和混合操作,不增加大量计算开销
  4. 初始化策略: 实验表明随机初始化注意力矩阵比零初始化更能促进模型收敛

实验结果

模型 数据集 原始准确率 HAViT准确率 提升
ViT CIFAR-100 75.74% 77.07% +1.33%
ViT TinyImageNet 57.82% 59.07% +1.25%
CaiT CIFAR-100 - - +1.01%

关键发现:

  • 超参数α=0.45在所有配置中均为最优,能最佳平衡当前与历史注意力信息
  • 跨架构验证显示在CaiT等其他Transformer变体上也能取得类似提升
  • 随机初始化始终优于零初始化,表明多样化的初始注意力模式有助于加速收敛

论文链接: https://arxiv.org/abs/2603.18585


2. Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis

论文信息

  • arXiv编号: 2510.03366
  • 作者: Harshwardhan Fartale, Ashish Kattamuri, Rahul Raja, Arpita Vats, Ishita Prasad, Akshata Kishore Moharir
  • 发表时间: 2025年10月3日 (v1),2026年3月13日修订 (v2)
  • 研究领域: 机制可解释性、Transformer架构分析

研究背景
Transformer语言模型在回忆(检索记忆事实)和推理(进行多步推断)方面都表现出色,但这两种能力是否依赖于不同的内部机制尚不清楚。区分这两种能力对于预测模型泛化能力、设计针对性评估以及构建更安全的干预措施至关重要。

核心贡献
首次提供因果性证据,表明回忆和推理在Transformer模型中依赖于可分离但相互作用的电路。这一发现将电路级结构与功能专门化联系起来,为大型语言模型的更安全部署提供理论依据。

研究方法
采用机制可解释性方法,使用受控的合成语言谜题数据集:

  1. 多层级探测: 在层、头和神经元级别探测Transformer模型
  2. 激活修补: 测量各组件对每种任务类型的因果贡献
  3. 结构化消融: 选择性禁用特定电路以观察功能影响
  4. 跨模型验证: 在两个模型家族(Qwen和LLaMA)上进行实验

主要发现

  1. 电路层面分离

    • 回忆电路: 特定层和注意力头的干预会选择性损害事实检索能力,准确率下降高达15%,而推理能力基本不受影响
    • 推理电路: 不同的层和头主要负责多步推理,消融这些部分会显著影响推理性能
    • 两种电路可分离但相互作用
  2. 神经元层面观察

    • 观察到任务特定的激活模式,但效果不如电路层面稳健
    • 与神经元的多义性特性一致

研究意义

  • 推进机械可解释性研究,将电路级结构与功能专门化联系起来
  • 展示受控数据集和因果干预如何提供对模型认知的机械洞察
  • 为开发更可控、更安全的人工智能系统提供重要参考

论文链接: https://arxiv.org/abs/2510.03366


扩展阅读

大模型算法创新

  1. Sparser, Faster, Lighter Transformer Language Models (2026-03-25)

    • arXiv: 2603.XXXXX
    • 提出更稀疏、更快、更轻量的Transformer语言模型,代码和检查点已开源
  2. SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling (2026-03-25)

    • 作者: Yiqi Zhang, Huiqiang Jiang, Xufang Luo等
    • 通过在线长度感知调度加速LLM的RL训练
  3. Similarity-Aware Mixture-of-Experts for Data-Efficient Continual Learning (2026-03-25)

    • 作者: Connor Mclaughlin, Nigel Lee, Lili Su
    • 提出相似性感知的MoE用于数据高效的持续学习

MoE与专家模型

  1. A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications (2026-01-24更新)
    • arXiv: 2503.07137v4
    • 全面总结MoE的基本设计、算法设计、理论研究和应用

推理增强

  1. Caterpillar of Thoughts: The Optimal Test-Time Algorithm for Large Language Models (2026-03-25)

    • 提出大语言模型最优测试时算法
  2. DAK-UCB: Diversity-Aware Prompt Routing for LLMs and Generative Models (ICLR 2026接收)

    • 多样化感知提示路由优化

AI软件生态

  1. TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization (2025-12-10)
    • arXiv: 2512.09196
    • 面向自动化Triton内核优化的性能分析引导框架

AI芯片动态

  1. 华为昇腾AI芯片路线图 (2025-09-18发布)

    • 2026年Q1: 昇腾950PR(面向推理Prefill阶段)
    • 2026年Q4: 昇腾950DT(升级为HiZQ 2.0)
    • 2027年Q4: 昇腾960
    • 2028年Q4: 昇腾970
  2. AMD MI300X GPU Performance Analysis (2025-10)

    • 分析AMD MI300X GPU在大规模LLM部署中的性能表现

AI应用落地

  1. AI Flow: Perspectives, Scenarios, and Approaches (中国电信AI研究院)

    • arXiv: 2506.12479
    • 提出设备-边缘-云框架、家族模型概念,实现基于连接和交互的智能涌现
  2. AI agent in healthcare: applications, evaluations, and future challenges (Nature, 2026-03-05)

    • 全面回顾AI智能体在医疗领域的应用、评估和未来挑战

今日研究趋势总结

主要研究方向

  1. 模型效率优化: 稀疏Transformer、轻量级模型、历史注意力机制等
  2. 机制可解释性: 深入理解Transformer内部工作机制,分离不同认知能力
  3. MoE架构: 持续学习中的MoE应用、相似性感知路由
  4. 推理增强: 测试时计算优化、推理与回忆分离研究
  5. AI基础设施: 华为昇腾、AMD MI300X等国产/替代芯片发展

技术亮点

  • HAViT通过历史注意力传播机制,在不增加大量计算开销的情况下提升ViT性能
  • 首次因果性证明Transformer中回忆和推理电路的可分离性
  • 昇腾芯片路线图明确,国产AI算力持续发力

posted @ 2026-04-09 01:37  SHICENT  阅读(8)  评论(0)    收藏  举报