【文献阅读】CSBrain:用于EEG解码的跨尺度时空脑基础模型

CSBrain:用于EEG解码的跨尺度时空脑基础模型

原文标题:CSBrain: A Cross-scale Spatiotemporal Brain Foundation Model for EEG Decoding

1 概要

作者:Yuchen Zhou, Jiamin Wu, Zichen Ren, Zhouheng Yao, Weiheng Lu, Kunyu Peng, Qihao Zheng, Chunfeng Song, Wanli, Ouyang, Chao Gou;来自上海人工智能实验室、孙中山大学、香港中文大学、卡尔鲁赫毛皮技术研究所

期刊: 论文在 arXiv 上公开,提交日期是 2025 年 6 月 29 日

解决的问题:最近的EEG基础模型通过利用统一架构和大规模预训练在广义大脑解码方面取得了进展,但它们继承了NLP和视觉的尺度无关的密集建模范式。这种设计忽略了神经活动的一个内在特性——跨尺度时空结构。不同的EEG任务模式跨越了广泛的时间和空间尺度,从短暂的神经激活到缓慢变化的节律,从局部的皮层激活到大规模的分布式交互。忽视这种多样性可能会导致次优表示和泛化能力减弱。

主要贡献/结构特点:

  • 提供了一种跨尺度、结构感知的架构 CSBrain
    • 跨尺度时空标记化(CST):将时间窗口和大脑区域内的多尺度神经模式显式集成到紧凑的、可缩放的标记中;(Googlenet,TSception)
    • 结构化稀疏注意力(SSA):旨在有效地捕获跨窗口和区域的长程依赖关系,从而丰富建模规模的多样性。
    • CST 和 SSA 交替堆叠,逐步整合跨尺度依赖关系,实现跨任务的稳健EEG表示。
  • 预训练的重建头由一个轻量级的全连接层组成

2 背景

在过去的十年中,各种特定任务的深度学习模型——包括CNN、RNNs、GNNs和Transformers——已被提出用于上述应用中的EEG解码。尽管在狭窄的环境中有效,但这些模型通常与特定的数据集和任务格式紧密耦合,限制了它们的通用性和可扩展性[33,34]。

受人工智能从特定任务到基础模型的范式转变的启发,最近的研究探索了大脑基础模型,旨在通过统一的架构和大规模的自我监督预训练,在不同的大脑解码任务中学习通用的EEG表示。

不足:这些模型代表了向可推广的EEG解码迈出的重要一步,大多数模型都采用了从自然语言处理和计算机视觉移植的流水线(如图1(a)所示):EEG信号首先被分割成固定比例的标记,然后在标记之间对模型依赖关系施加密集的注意力。然而,这种与尺度无关的密集建模策略从根本上与EEG信号的内在跨尺度时空特性不匹配,这对于准确捕捉特定任务的神经模式至关重要。

具体而言,不同的EEG解码任务固有地表现出不同的时空尺度:

  • 从时间角度来看,不同的EEG解码任务在神经动力学方面表现出显著差异。例如,运动和言语想象任务涉及在短时间窗口内短暂的活动爆发,而睡眠分期依赖于在较长时间尺度内较慢的振荡周期。

  • 从空间角度来看,由于人脑的功能特化,任务在大脑区域的激活模式上有所不同[49,52]。运动图像通常涉及局部或局灶性神经激活[53],而情绪识别需要在广泛分布的大脑区域之间进行协调活动[54],反映了更长范围的空间依赖性。跨任务的时空尺度的这种可变性对令牌表示和建模能力提出了很高的要求。大多数现有的基础模型面临三个关键限制:

  • (1) 规模无关的标记化:它们依赖于一次性固定规模的标记化策略,导致标记表示无法适应跨任务的不同神经模式。这些令牌经常遭受规模不匹配和语义淡化的困扰,这削弱了它们作为最基本建模单元的有效性。

  • (2) 结构无关的密集注意力:由于在标记化中缺乏时空尺度意识,现有的基础模型依赖于所有标记的密集注意力来揭示噪声信号背后的特定任务神经模式。然而,不考虑内在的跨尺度结构,不加选择地关注次优令牌,由于EEG信号固有的高噪声,往往会引入虚假依赖[11,55],最终降低表示质量并增加计算开销。

  • (3) 有限泛化:这些限制共同阻碍了统一EEG基础模型在具有异构时空尺度的不同BCI任务中的泛化和适应性。

image

为了解决这些局限性,我们认为EEG基础模型必须超越尺度不可知、密集的建模范式,采用跨尺度、结构感知的架构,尊重神经活动的内在区域组织和时间动态。在本文中,我们提出了CSBrain,一种用于广义EEG解码的跨尺度时空脑基础模型,如图1(b)所示。在神经生理学先验的指导下,CSBrain将EEG信号沿空间和时间轴分解为不同的大脑区域和窗口,并捕获这些结构内部和之间的跨尺度依赖关系,从而产生鲁棒性和高度适应性的表示。具体来说,我们提出了一种跨尺度时空标记化(CST)模块,该模块在局部区域内捕获多个时间和空间尺度的EEG特征。通过将这些模式集成到紧凑的令牌表示中,CST能够适应EEG解码任务的不同时空要求。基于这些尺度感知令牌,我们提出了一个结构化稀疏注意力(SSA)模块,以进一步丰富EEG建模尺度的多样性。SSA以结构化和高效的方式捕获跨时间窗口和大脑区域的长期依赖关系。通过替换代价高昂的密集注意力,SSA减少了虚假依赖性和计算开销,为嘈杂的EEG信号提供了更具鉴别性的表示。最后,CST和SSA交替堆叠并相互加强,逐步整合了时间和空间维度上的跨尺度依赖关系。这种分层设计使CSBrain能够构建反映神经活动复杂模式的鲁棒EEG表示,从而在具有固有多样时空需求的EEG解码任务中实现卓越的泛化。总的来说,我们的贡献可以总结如下:

  • 我们提出了CSBrain,这是一种用于广义大脑解码的跨尺度时空大脑基础模型,提供了一种跨尺度、结构感知的架构,可以有效地捕获不同任务中的多尺度时空神经模式
  • 我们引入了跨尺度时空标记化(CST),将时间窗口和大脑区域内的多尺度神经模式显式集成到紧凑的、可缩放的标记中。此外,结构化稀疏注意力(SSA)旨在有效地捕获跨窗口和区域的长程依赖关系,从而丰富建模规模的多样性。CST和SSA交替堆叠,逐步整合跨尺度依赖关系,实现跨任务的稳健EEG表示。
  • 在11个具有代表性的EEG解码任务和16个公共数据集上进行的广泛实验表明,CSBrain优于特定任务和基础模型。进一步的分析揭示了跨任务的不同跨尺度模式,将跨尺度建模确立为广义EEG解码的关键归纳偏差。

3 CSBrain 架构(原文)

image

3.1 EEG 信号预处理

最初,我们将输入EEG信号形式化为 \(E\in \mathbb{R}^{|\mathcal{C}_x|\times T}\),其中 \(\mathcal{C}_x\in \mathcal{C}\) 表示使用的电极集,\(T\) 表示时间戳的数量。\(\mathcal{C}\) 对应于标准化的国际10-20系统。为了提高信号质量并确保数据集之间的特征一致性,我们遵循先前的工作[35,34],并应用标准化的信号预处理流水线。

信号标准化。原始信号E用带通滤波器处理以去除低频漂移和高频噪声,然后用陷波滤波器消除电力线干扰。然后将信号重新采样到200 Hz的均匀速率,并缩放到100µV,以将幅度范围归一化为[-1,1]。为了实现表示学习,将预处理的EEG信号在时间上分割成长度为t的非重叠段,得到\(E_p\in\mathbb{R}^{C\times n\times t}\),其中 \(n=\lfloor\frac{T}{t}\rfloor\) 是每个电极的段数。

初步特征编码。我们从 \(E_p\) 中的每个片段中提取时间和光谱特征。使用具有归一化的1D卷积来捕获局部时间动态,而通过应用快速傅里叶变换(FFT)和全连接层来编码频率能量分布,从而获得频谱信息。将这两种特征类型连接起来,形成一个统一的特征嵌入。最后,我们添加一个可学习的位置编码[40],得到初始EEG表示 \(x^{(0)}\in\mathbb{R}^{C\times n\times d}\),其中 $d表示特征嵌入维数。

3.2 跨尺度时空标记化(CST)

由于脑电信号固有的跨尺度时空特性,信息神经模式以异质的时间和空间分辨率出现。以前采用固定令牌粒度的EEG解码方法无法有效捕获此类模式,限制了其在不同BCI任务中的通用性。为了解决这个问题,我们提出了跨尺度时空标记化(CST),它将局部时间窗口和解剖学定义的大脑区域内的多分辨率信息编码为统一的标记表示。这些标记构成了后续注意力计算的基本建模单元。在下文中,我们详细介绍了CST的两个组成部分:时间标记化,它捕获局部时间窗口(即窗口内)内的多尺度时间模式,以及空间标记化,提取解剖大脑区域(即区域内)内特定区域的特征。

时间标记化。为了在不同的时间分辨率下实现标记化,我们引入了多尺度时间卷积核 \(C_T=\{\text{Conv}_t^{(k)}\}_{k=1}^K\),其中 \(k\) 表示核的数量,每个时间核 \(\text{Conv}_t^{(k)}\) 具有核大小 \(s_t^{(k)}\) 和输出嵌入维数 \(d_k\)。给定预处理的EEG特征 \(x^{(l-1)}\in\mathbb{R}^{C\times n\times d}\),对于每个位置 \((i,j)\),其中 \(i\in\{1,2,...,n\}\)\(j\in\{1,2,...,C\}\) 分别表示时间和电极通道索引,我们为第 \(k\) 个尺度定义了一个以 \(i\) 为中心的局部时间窗口 \(\mathcal{W}_t^{(k)}(i)\),用于大小为 \(s_t^{(k)}\) 的第 \(k\) 个尺度。在这些窗口上应用多尺度时间卷积,以不同分辨率提取每个位置的时间模式。该过程可表述为:

\[\hat{x}_{i,j}^{(l)}=\text{Concat}(\{\text{Conv}_t^{(k)}(\mathcal{W}_t^{(k)}(i))\}_{k=1}^K) + \text{Proj}_t(x_{i,j}^{(l-1)}) \tag{1} \]

其中 \(\text{Proj}_t\) 是尺寸对齐的残差投影。来自不同时间核的输出被连接起来,形成一个时间上跨尺度的令牌 \(\hat{x}_{i,j}^{(l)}\),它捕获了每个通道内丰富的时间动态。由此产生的令牌表示可以增强模型对信号噪声的鲁棒性,并可扩展到具有不同时间模式的各种解码任务。

空间标记化。与时间标记化类似,我们设计了多尺度空间卷积核 \(C_S=\{\text{Conv}_t^{(k)}\}_{k=1}^K\),每个空间核 \(\text{Conv}_t^{(k)}\) 都有一个核大小 \(s_t^{(k)}\) 和输出嵌入维数 \(d_k\)。为了在多个尺度上对每个大脑区域中功能相关电极的空间上下文进行编码,我们利用这些卷积核来聚合解剖学定义的大脑区域内的电极特征。具体来说,在时间标记化后,给定EEG特征 \(x^{(l)}\in\mathbb{R}^{C\times n\times d}\),我们首先基于10-20系统将电极划分为一组大脑区域 \(\mathcal{R}=\{R_r\}_{r=1}^R\),其中每个区域 \(R_r\) 包括空间相邻的电极。对于每个电极 \(j\in R_r\),我们定义了第 \(k\) 个尺度下大脑区域内大小为 \(s_s^{(k)}\) 的局部空间邻域 \(\mathcal{W}_s^{(k)}(j)\subseteq R_r\)。最后,通过在相应的邻域上应用多尺度空间卷积核来执行空间标记化:

\[\hat{x}_{i,j}^{(l)}=\text{Concat}(\{\text{Conv}_s^{(k)}(\mathcal{W}_t^{(k)}(i))\}_{k=1}^K) + \text{Proj}_s(x_{i,j}^{(l-1)}) \tag{2} \]

其中 \(\text{Proj}_s\) 是用于尺寸对齐的残差投影。来自不同空间核的输出被连接起来,形成最终的跨尺度令牌表示 \(\tilde{x}_{i,j}^{(l)}\),捕捉每个大脑区域内的局部空间依赖性。\(\tilde{x}_{i,j}^{(l)}\) 封装了不同尺度上的时空特征,作为CST模块的最终输出,为下游注意力计算提供了鲁棒的尺度感知特征。

为了平衡表示能力和计算效率,我们在指数衰减方案中跨尺度分配嵌入维度:\(d \propto \frac{1}{2^k}\)\(\sum_{k=1}^Kd_k=d\),即为较小的内核分配更高的维度以保留细粒度特征,同时为总结粗略上下文的较大内核分配较低的维度。该策略将表征能力与每个尺度上的信息密度对齐,以实现平衡和高效的EEG表征。

3.3 结构化稀疏注意力(SSA)

  • 先前的方法通常在固定规模的令牌上均匀地应用密集的注意力。虽然在某些情况下是有效的,但这种不加区分的关注可能会引入虚假的依赖关系,降低表示质量,并增加计算成本。

同时,我们的CST在局部时间窗口和大脑区域内提供了结构化的跨尺度令牌表示,为进一步建模奠定了坚实的表示空间。在此基础上,我们提出了结构化稀疏注意力(SSA),它有效地捕获了跨时间窗口和空间区域的长程依赖关系,同时避免了冗余交互。SSA在时间和空间尺度上补充了CST,它们共同实现了EEG表示的结构化跨尺度建模。SSA由两个部分组成:窗口间注意力,负责捕捉局部窗口之间的长期时间依赖关系,以及区域间注意力,模拟不同大脑区域之间的空间依赖关系。

Inter-window Attention。给定跨尺度标记 \(\tilde{x}_{i,j}^{(l)}\in\mathcal{R}^{C\times n\times d}\),我们首先执行时间分组操作以形成跨窗口组。具体来说,对于每个相对索引 \(g\in\{1,2,..,w\}\),我们收集在每个窗口中占据相同位置 \(g\) 的所有标记,以形成时间组 \(\mathcal{G}_t^{(g)}\)。然后在每个组内计算自我关注,以模拟跨时间的结构化长期依赖关系:

\[\tilde{x}_{i,j}^{(l,win)}=\text{Attn}(\mathcal{G}_t^{(g)})_{i,j}+\tilde{x}_{i,j}^{(l)} \tag{3} \]

这种设计实现了高效和结构化的时间交互,同时避免了冗余。

Inter-region Attention。为了确保结构化的稀疏性,同时保持所有电极的覆盖率,我们执行了一个空间分组操作,在脑区间构建多个空间。对于每个组,我们从每个区域 \(R_r\) 中顺序采样一个标记 \(x_r^{rep}\),并将其与 \(R_r\) 的平均特征组合在一起,形成一个区域描述符:

\[\tilde{x}_r=\tilde{x}_r^{rep}+\phi(\mathcal{P}(R_r)),r=1,2,...,R \tag{4} \]

其中 \(\mathcal{P}(R_r)\) 表示区域 \(R_r\) 的平均合并特征,\(\phi(\cdot)\) 是一个可学习的线性变换。这些描述符被组合成一个空间组 \(\mathcal{G}_s^{(g)}=\{\tilde{x}_1,...,\tilde{x}_R\}\),在该空间组上应用自我关注来捕捉跨解剖区域的结构化依赖关系:

\[\tilde{x}_{i,j}^{l,rep}=\text{Attn}(\mathcal{G}_s^{g})_{i,j}+\tilde{x}_{i,j}^{(l,win)} \tag{5} \]

最后,我们应用层归一化和具有残差连接的前馈网络来细化输出:

\[x_{i,j}^{(l)}=\text{FFN}(\text{LN}(\tilde{x}_{i,j}^{(l,reg)}))+\tilde{x}_{i,j}^{(l,reg)} \tag{6} \]

SSA通过利用CST提供的强大的跨尺度令牌布局,使CSBrain能够有效地模拟跨时间和空间维度的长期依赖关系。该设计逐步构建全局上下文,同时保持尺度感知并减轻噪声信号中的虚假相关性,从而增强了不同EEG解码任务的泛化能力。

3.4 使用掩码自动编码进行预训练

为了学习可推广的EEG表示,我们采用了一种基于掩码自动编码的自监督预训练策略[45,56],如图3所示。这一过程鼓励模型从未标记的EEG信号中捕获有意义的时空依赖关系,为有效的下游传输奠定基础。

掩码策略。给定预处理的EEG信号 \(E_p\in\mathbb{R}^{C\times n\times t}\),我们使用伯努利采样方案沿时间轴随机屏蔽固定比率 \(r\in(0,1)\) 的片段。这导致了两个子集:可见段 \(E_v\in\mathbb{R}^{C\times n_v\times t}\) 和掩蔽段 \(E_m\in\mathbb{R}^{C\times n_m\times t}\),其中 \(n_v+n_m=n\)\(\frac{n_m}{n}=R\)。掩蔽的EEG序列由交替堆叠的CST和SSA模块编码,这些模块联合模拟了跨多个时空尺度的神经依赖性。掩码段由可学习的嵌入表示,并在编码过程中与可见标记集成在一起。

重建目标。重建头由一个轻量级的全连接层组成,该层将编码的可见标记和可学习的掩码嵌入作为输入,并将其投影到原始EEG信号空间中。设 \(\hat{E}_m\in\mathbb{R}^{C\times n_m\times t}\) 表示预测的EEG片段,\(E_m\) 表示相应的地面真值。重建损失定义为所有遮蔽位置的均方误差(MSE):

\[\mathcal{L}_{rec}={||\hat{E}_m-E_m||}^2 \]

这个被掩盖的自动编码目标驱动模型从上下文中恢复有意义的时空依赖关系,从而产生鲁棒且可转移的EEG表示。

4 CSBrain 架构

4.1 EEG 信号预处理

  • 输入信号格式: 原始的 EEG 信号表示为 \(E\in \mathbb{R}^{|\mathcal{C}_x|\times T}\),其中 \(\mathcal{C}_x\in \mathcal{C}\) 是使用的电极集(基于标准的国际 10-20 系统),\(T\) 是时间数量。
  • 信号标准化:
    • 滤波: 使用带通滤波器去除低频漂移(如呼吸、汗液伪影)和高频噪声(如肌肉活动),然后用陷波滤波器消除电源线干扰(例如,50/60 Hz 的交流电噪声)。
    • 重采样: 将信号统一重采样到 200 Hz,以确保时间分辨率一致。
    • 幅度缩放: 将信号幅度缩放到 100µV,将其归一化到 \([-1, 1]\) 的范围,这有助于稳定训练。
    • 分段: 预处理后的 EEG 信号会按时间分割成长度为 \(t\)非重叠段,形成 \(E_p\in\mathbb{R}^{C\times n\times t}\),其中 \(C\) 是电极数,\(n=\lfloor\frac{T}{t}\rfloor\) 是每个电极的段数。
  • 初步特征编码:
    • 时间特征: 使用一维卷积捕获每个时间段内的局部时间动态。
    • 光谱特征: 通过快速傅里叶变换 (FFT) 获得频率能量分布,然后通过全连接层编码这些信息。
    • 特征融合: 将时间和光谱特征拼接 (Concatenate) 起来,形成一个统一的特征嵌入。
    • 位置编码: 最后,添加一个可学习的位置编码,得到初始的 EEG 表示 \(x^{(0)}\in\mathbb{R}^{C\times n\times d}\),其中 \(d\) 是特征嵌入的维度。

4.2 跨尺度时空标记化 (CST)

目的:CST 是 CSBrain 的核心创新之一,旨在解决传统 EEG 解码方法因固定令牌粒度而无法有效捕获跨尺度时空信息的问题。它将局部时间窗口和解剖学定义的大脑区域内的多分辨率信息编码为统一的令牌表示。

4.2.1 时间标记化

  • 目的: 捕获局部时间窗口内的多尺度时间模式

  • 多尺度时间卷积核: 引入了\(K\) 个不同的时间卷积核 \(C_T=\{\text{Conv}_t^{(k)}\}_{k=1}^K\),每个核 \(k\) 具有不同的核大小 \(s_t^{(k)}\) 和输出嵌入维度 \(d_k\)

  • 流程:

    1. 对于预处理后的 EEG 特征 \(x^{(l-1)}\in\mathbb{R}^{C\times n\times d}\) 的每个位置 \((i,j)\)(时间 \(i\) 和电极 \(j\))。

    2. 为每个尺度 \(k\) 定义一个以 \(i\) 为中心的局部时间窗口 \(\mathcal{W}_t^{(k)}(i)\)

    3. 在这些窗口上应用多尺度时间卷积,以不同分辨率提取时间模式。

    4. 公式 (1) 表示该过程:

\[\hat{x}_{i,j}^{(l)}=\text{Concat}(\{\text{Conv}_t^{(k)}(\mathcal{W}_t^{(k)}(i))\}_{k=1}^K) + \text{Proj}_t(x_{i,j}^{(l-1)}) \tag{1} \]

这意味着来自不同时间核的输出被拼接起来,并与原始特征通过一个残差连接 \(\text{Proj}_t\) 相加,形成跨时间尺度的令牌 \(\hat{x}_{i,j}^{(l)}\)

4.2.2 空间标记化

  • 目的: 提取解剖大脑区域内的特定区域特征

  • 多尺度空间卷积核: 类似于时间标记化,设计了 \(K\) 个不同的空间卷积核 \(C_S=\{\text{Conv}_t^{(k)}\}_{k=1}^K\),每个核 \(k\) 具有不同的核大小 \(s_s^{(k)}\) 和输出嵌入维度 \(d_k\)

  • 处理流程:

    1. 在时间标记化之后,将电极基于 10-20 系统划分为多个大脑区域 \(\mathcal{R}=\{R_r\}_{r=1}^R\)

    2. 对于每个区域 \(R_r\) 中的每个电极 \(j\),定义一个局部空间邻域 \(\mathcal{W}_s^{(k)}(j)\subseteq R_r\)

    3. 通过在相应邻域上应用多尺度空间卷积核来执行空间标记化。

    4. 公式 (2) 表示该过程:

\[\hat{x}_{i,j}^{(l)}=\text{Concat}(\{\text{Conv}_s^{(k)}(\mathcal{W}_t^{(k)}(i))\}_{k=1}^K) + \text{Proj}_s(x_{i,j}^{(l-1)}) \tag{2} \]

与时间标记化类似,不同空间核的输出被拼接并与原始特征通过残差连接 \(\text{Proj}_s\) 相加,形成最终的跨尺度令牌表示 \(\tilde{x}_{i,j}^{(l)}\)

  • 嵌入维度分配策略: 为了平衡表示能力和计算效率,嵌入维度 \(d\) 以指数衰减方案分配给不同的尺度(即 \(d \propto \frac{1}{2^k}\)\(\sum_{k=1}^Kd_k=d\))。这意味着较小的内核(捕获细粒度特征)获得更高的维度,而较大的内核(捕获粗略上下文)获得较低的维度。

4.3 结构化稀疏注意力 (SSA)

目的:SSA 旨在解决传统密集注意力机制可能引入冗余交互和增加计算成本的问题,它利用 CST 提供的结构化跨尺度令牌表示来高效地捕获长时间窗口和空间区域的远程依赖关系

4.3.1 窗口间注意力 (Inter-window Attention)

  • 目的: 捕捉局部时间窗口之间的长期时间依赖关系

  • 时间分组: 将跨尺度令牌 \(\tilde{x}_{i,j}^{(l)}\in\mathcal{R}^{C\times n\times d}\) 进行时间分组,对于每个相对索引 \(g\),收集在每个窗口中占据相同位置 \(g\) 的所有令牌,形成时间组 \(\mathcal{G}_t^{(g)}\)

  • 自注意力计算: 在每个时间组内计算自注意力,以模拟跨时间的结构化长期依赖关系。

\[\tilde{x}_{i,j}^{(l,win)}=\text{Attn}(\mathcal{G}_t^{(g)})_{i,j}+\tilde{x}_{i,j}^{(l)} \tag{3} \]

表示在时间组上应用注意力机制后,将其结果与原始令牌进行残差连接。这种设计实现了高效和结构化的时间交互,同时避免了冗余。

4.3.2 区域间注意力 (Inter-region Attention)

  • 目的: 模拟不同大脑区域之间的空间依赖关系

  • 空间分组和区域描述符:

    • 从每个区域 \(R_r\) 顺序采样一个代表令牌 \(\tilde{x}_r^{rep}\)

    • 将其与该区域的平均特征 \(\mathcal{P}(R_r)\) 结合,通过一个可学习的线性变换 \(\phi(\cdot)\),形成一个区域描述符 \(\tilde{x}_r\)

    \[\tilde{x}_r=\tilde{x}_r^{rep}+\phi(\mathcal{P}(R_r)),r=1,2,...,R \tag{4} \]

  • 自注意力计算: 这些区域描述符被组合成一个空间组 \(\mathcal{G}_s^{(g)}=\{\tilde{x}_1,...,\tilde{x}_R\}\),然后在此组上应用自注意力,捕捉跨解剖区域的结构化依赖关系。

\[\tilde{x}_{i,j}^{l,rep}=\text{Attn}(\mathcal{G}_s^{g})_{i,j}+\tilde{x}_{i,j}^{(l,win)} \tag{5} \]

表示在空间组上应用注意力机制后,将其结果与经过窗口间注意力处理后的令牌进行残差连接。

  • 细化输出:最后,应用层归一化 (LN) 和带有残差连接的前馈网络 (FFN) 来细化输出。

    \[\]

    \[ \]

4.4 使用掩码自动编码进行预训练

为了学习可推广的 EEG 表示,CSBrain 采用了基于掩码自动编码 (Masked Autoencoding, MAE) 的自监督预训练策略。

  • 掩码策略:

    • 给定预处理的 EEG 信号 Ep。
    • 沿时间轴随机屏蔽固定比例 \(r∈(0,1)\) 的片段,使用伯努利采样
    • 这会生成两个子集:可见段 \(E_v\in\mathbb{R}^{C\times n_v\times t}\) 和掩蔽段 \(E_m\in\mathbb{R}^{C\times n_m\times t}\),其中 \(n_v+n_m=n\)\(\frac{n_m}{n}=r\)
    • 掩蔽的 EEG 序列由交替堆叠的 CST 和 SSA 模块编码,它们共同模拟多时空尺度的神经依赖性。
    • 掩码段由可学习的嵌入表示,并在编码过程中与可见令牌集成。
  • 重建目标:

    • 重建头: 一个轻量级的全连接层,它将编码的可见令牌和可学习的掩码嵌入作为输入,并将其投影回原始 EEG 信号空间。

    • 重建损失: 定义为所有遮蔽位置的均方误差 (MSE)

      \[\]

      \[ \]

这种掩码自动编码的目标促使模型从上下文中恢复有意义的时空依赖关系,从而学习到鲁棒且可转移的 EEG 表示,为下游任务奠定基础。

5 实验设置

5.1 预训练设置

数据预处理。我们在天普大学医院EEG语料库(TUEG)数据集上对CSBrain进行预训练,该数据集已被证明对基础模型研究有效。我们应用了标准预处理步骤:信号在0.3-75 Hz之间进行带通滤波,以去除低频和高频噪声,并使用60 Hz的陷波滤波器来消除电力线干扰。所有信号都被重新采样到200 Hz,并被分割成30秒的EEG样本。振幅被归一化为100µV,以确保信号范围在[-1,1]以内,与之前的工作[35,40]一致。清洁后,共使用1109545个EEG片段(超过9000小时)进行预训练。

训练前设置。我们采用了一种掩蔽的自动编码目标,将50%的掩蔽率应用于随机采样的EEG补丁。预培训使用Python 3.11.11和PyTorch 2.5.1以及CUDA 12.4进行。该模型使用AdamW优化器进行训练,学习率为5e-4,权重衰减为5e-2,余弦退火学习率调度。我们使用128的批处理大小,在4个NVIDIA A100 GPU上训练40个迭代周期,总预训练时间约为101小时。更多细节可以在补充材料中找到。

5.2 下游BCI任务的实验设置

任务和数据集。为了全面评估我们模型的可推广性,我们对跨越16个公开可用EEG数据集的11个代表性BCI任务进行了实验,如表1所示。这些任务包括运动图像分类(BCIC-IV-2a、PhysioNetMI、SHU-MI)、情绪识别(FACED、SEED-V)、癫痫发作检测(CHB-MIT、锡耶纳)、睡眠分期(ISRUC、HMC)、想象语音分类(BCICE20-3)、警觉估计(SEEDVIG)、精神压力检测(心算)、精神障碍诊断(Mumtaz2016)、事件类型分类(TUEV)、异常检测(TUAB)和缓慢事件分类(TUSL)。在所有实验中,我们严格遵循训练、验证和测试分割,以确保公平一致的评估。据我们所知,这是迄今为止对EEG基础模型进行的最全面的评估之一。详见补充资料。

基线和指标。我们将CSBrain与两大类基线进行了广泛比较:(1)代表性的任务特定型EEG解码模型,包括EEGNet[21]、EEGConformer(Conformer)[30]、SPaRCNet[22]、ContraWR[23]、CNN Transformer(C-Trans)[32]、FFCL[24]和ST Transformer(ST-Trans)[31];以及(2)最近的EEG基础模型,包括BIOT[34]、LaBraM[35]和CBraMod[40]。根据先前的工作[34,35,40],我们报告了多类分类任务的 Balanced Accuracy、Cohen的Kappa和加权F1;二元分类的平衡精度、AUC-PR和AUROC;以及回归任务的皮尔逊相关系数、R2评分和RMSE。详见补充资料。

5.3 实验结果

性能比较。为了公平全面地评估CSBrain的有效性,我们将其与11个代表性BCI任务的10个强基线进行了基准比较,涵盖了16个公共EEG数据集,如表2所示。所有结果都是用不同的随机种子进行五次运行的平均值。由于篇幅限制,我们在主论文中报告了每个数据集的两个代表性指标:多类分类的平衡精度(B-Acc)和加权F1(F1-W)以及二元分类的B-Acc and AUROC。

如表2所示,我们强调了两个关键观察结果:(1)CSBrain在几乎所有任务和指标上都始终达到最先进的性能水平。特别是,它在BCIC-IV-2a、BCIC2020-3、Siena和TUSL等数据集上的表现明显优于所有基线。即使在CSBrain在某些指标上排名第二的情况下,与表现最佳的方法的性能差距仍然很小。从表2最后一行的宏观平均值来看,CSBrain在所有任务中的总体得分最高,分别比CbraMod、LaBraM和BIOT等强基础模型高出3.35%、3.98%和7.73%。这些结果表明,CSBrain对具有不同时空需求的各种EEG解码场景具有很强的泛化能力和适应性。(2)基础模型的表现明显优于特定任务模型。在所有16个数据集中,EEG基础模型(包括BIOT、LaBraM、CbraMod和CSBrain)的表现始终优于特定任务模型。这也验证了用大规模预训练训练的统一模型架构的优势,该架构可以在异构EEG域中提取可推广的神经表示。

标记化比较。为了从令牌构造的角度研究时空尺度如何影响EEG表示,我们改变CST模块中的核数K来控制令牌粒度。具体来说,我们比较了单尺度(K=1)、双尺度(K=2)和全交叉尺度(K=3)配置。此外,为了评估堆叠的效果,我们将我们的完整设计(在每个SSA模块之前应用CST)与在第一个SSA之前仅应用一次跨尺度标记化(K=3)的变体进行了比较。为了提高效率,所有变体都经过预训练,并使用30%的训练数据进行微调。如图4所示,我们的SSA(K=3,堆叠)在四个代表性任务中始终取得最佳性能:情绪识别、运动想象、事件分类和想象语音。相比之下,单尺度变体(K=1)的表现最差。值得注意的是,在运动图像任务中,SSA在三个评估指标上分别比单尺度任务高10.8%、20.7%和12.1%。此外,我们观察到,在整个网络中交替堆叠SSA模块始终优于仅应用一次SSA。这是因为在注意力计算之前,单次应用SSA可能无法完全捕捉到更广泛的跨尺度依赖关系。这些结果突显了所提出的SSA在跨任务捕获不同EEG动态方面的重要性。

注意机制比较。此外,我们比较了不同类型的注意力机制,以评估它们对EEG解码性能和计算效率的影响。

  • (1)密集注意力对所有二次复杂度为 \(\mathcal{O}(N^2)\) 的令牌执行完全的自我注意力,其中 \(N=T\times C\)。虽然在理论上具有表现力,但它引入了虚假依赖关系,削弱了噪声EEG场景中的表示质量,并带来了大量的计算开销。
  • (2)危机交叉注意,将注意力限制在共享的时间或空间指标上,产生近似复杂度 \(\mathcal{O}(N^{1.5})\)
  • 以及(3)我们的结构化稀疏注意力(SSA)将注意力限制在跨时间窗口和大脑区域的分组标记上,实现了线性复杂度 \(\mathcal{O}(N\cdot k)\)\(k<<\sqrt{N}\) 。如图5所示,SSA在平衡精度、科恩Kappa和加权F1方面始终取得了最佳性能。

如图5所示,SSA在平衡精度、Cohen's Kappa和加权F1方面始终取得最佳性能。例如,在TUEV数据集上,与Criss cross Attention相比,SSA将平衡精度提高了+8.1%,加权F1提高了+5.3%,并保持了较低的计算成本。这些结果强调了SSA是EEG建模的一种有效且可扩展的感应偏置。

地形可视化。为了进一步研究CSBrain捕获的空间动态,我们可视化了不同EEG解码任务的激活拓扑图。具体来说,我们应用梯度加权类激活映射(Grad-CAM)[72]来计算每个EEG通道对模型预测的贡献,如图6所示。不同的任务会引发不同的激活模式和规模。警觉状态主要激活颞叶和枕叶,表明听觉和视觉系统的持续参与。运动图像唤起对侧运动皮层的高度局部激活,反映了ERD/ERS(事件相关去同步/同步)现象[73]。相比之下,情绪识别和想象语音表现出广泛、分布的激活。情绪任务会引发额叶和枕叶的显著激活,这与[29]中的发现一致。语音图像在额叶和颞叶引起了显著的激活[74],这在想象的语音处理中起着至关重要的作用[75]。这些观察结果进一步证实,不同的EEG解码任务表现出不同的激活区域和尺度,这加强了EEG基础模型跨尺度建模的必要性。通过明确建模跨尺度结构,CSBrain有效地适应了不同大脑解码场景中的任务特定神经模式

6 结论

在这项工作中,我们证明了对EEG信号的跨尺度时空结构进行建模对于构建可推广的大脑基础模型至关重要。通过由跨尺度时空标记化和结构化稀疏注意组成的统一架构,我们提出的CSBrain有效地捕获了跨越多个时空尺度的神经依赖关系。11个EEG解码任务和16个数据集的结果验证了CSBrain的有效性。这些发现将跨尺度时空建模确立为鲁棒、可扩展和生理对齐的EEG表示学习的关键归纳偏差。我们相信,这项工作为未来大脑与人工智能集成和广义神经解码的进步奠定了坚实的基础。

posted @ 2025-07-23 14:50  NeoAxiomN  阅读(159)  评论(0)    收藏  举报