【文献阅读】EEGPT:用于通用和可靠表示EEG信号的预训练Transfomer

EEGPT:用于通用和可靠表示EEG信号的预训练Transfomer

EEGPT: Pretrained Transformer for Universal and Reliable Representation of EEG Signals | OpenReview

1 概要

原文标题:EEGPT: Pretrained Transformer for Universal and Reliable Representation of EEG Signals

作者:哈尔滨工业大学计算机学院李海峰教授团队

期刊:NeurIPS 2024

主要贡献:

  • 提出EEGPT,这是一个用于EEG通用特征提取的1000万参数模型,利用混合数据集来提高跨任务和跨被试的性能。
  • 开发了一种用于EEG信号的双自监督方法(公式6),将时空表示对齐和基于掩模的重建相结合,提高了特征质量和收敛性。
  • 设计用于空间和时间信息解耦处理的分层结构,降低计算复杂性,增强BCI应用的模型灵活性。
  • 实施局部时空嵌入方法(对通道采取映射),提高不同EEG采集设备的鲁棒性和兼容性。
  • 在下游数据集上进行全面的实验,证明EEGPT在多个EEG任务中明显优于现有模型,并且较大的模型表现出更好的性能。
    • 任务:MI、EPR、睡眠质量检测

2 Method

掩码自动编码,通过最小化损失,模型能学习到输入 \(x\) 的最佳特征表示 \(z\)

\[\min_{\theta,\phi} \mathbb{E}_{x \sim D} H (d_\phi(z), x \odot (1 - M)), z = f_\theta(x \odot M) \]

但在BERT类型的模型里编码器和解码器没有分开,必须微调定位到有效表示,即

\[d_\phi(z)=d_\phi(f_\theta(\cdot))=F(x\odot M) \]

于是添加了一个时空表示对齐分支来显式表示 \(z\)(多了\(\mathcal{H}(z,f_\theta(x))\)),称为双自监督方法,该方法鼓励编码表示具有更大程度的语义,参考Multi-View Entropy Bottleneck (MVEB)方法。

\[\min_{\theta,\phi} \underset{x \sim D}{\mathbb{E}} H (d_\phi(z), x \odot (1 - M)+H(z,f_\theta(x)), z = f_\theta(x \odot M) \]

双监督方法在模型里即为公式 \((6)\)\(\mathcal{L}_A\) 损失。

2.1 时空表示对齐

Enocoder(ENC): 利用 summary token \(\{s_i\}^S_{i=1}\) 提取对掩码部分提取特征 \(enc_j\), summary token 为自己设计。

\[enc_j=\text{ENC}\underset{(i,j)\in\mathcal{M}}{(\{token_{i,j}\})} \]

Predictor(PRED):

  • \(pos_j\) 是通过 rotary position embedding method 生成的。
  • 只预测时间步

\[\underset{t\in\{1,2,...,N\}}{\{pred_t\}}=\text{PRED}(\underset{\exist i,(i,j)\in\mathcal{M}}{enc_j+pos_j}) \]

Momentum Encoder(MENC): 动量编码器 \(\text{MENC}\) 将所有在时间步 \(j\)\(\text{token}_{i,j}\) 的完整集合(\(\mathcal{M}+\mathcal{\bar{M}}\))作为输入,并生成对应的输出表示 \(menc_j\)

\[menc_j=\text{MENC}(\underset{(i,j)\in\mathcal{M}\cup\overline{\mathcal{M}}}{(\{token_{i,j}\})}) \]

时空表示对齐损失:

\[\mathcal{L}_A=-\frac{1}{N}\sum^N_{j=1}{||pred_j,\text{LN}(menc_j)||}^2_2 \quad (6) \]

2.2 掩码重构

Reconstructor(REC):

掩码重构损失:

\[\mathcal{L}_R=-\frac{1}{|\overline{\mathcal{M}}|}\sum^N_{j=1}{||rec_{i,j},\text{LN}(p_{i,j})||}^2_2 \]

2.3 局部时空嵌入

  • 将EEG信号 \(X\in\mathbb{R}^{M\times T}\) 按通道表示,即 \(\{c_i\}^M_{i=1}\),分为 \(N\) 个 patches: \(p_{i,j}\in\mathbb{R}^d,i\in[1,M],j\in[1,N]\).
  • 构建 Codex Book: \(\{\mathcal{S_i\in \mathbb{R}^{d_e}}\}^M_{i=1}\),将通道 \(\{c_i\}^M_i\rightarrow \{\mathcal{S}_i\}^M_i\)
  • 最后:\(token_{i,j}\in\mathbb{R}^{d_e}\)

\[Embed(p_{i,j})=p_{i,j}*W_p+b_p\\ token_{i,j}=\underset{时间嵌入}{Embed(p_{i,j})}+\underset{空间嵌入}{\mathcal{S}_i} \]

2.4 微调方法:线性探针(Adapter Tuning)

\(1\times 1\text{conv}\) + 预训练模型(Frozen)+ Linear

  • 用于对齐EEG和模型之间通道的自适应空间滤波器(\(1\times 1\text{conv}\)):保留时间维度不变,将通道维度映射到模型的通道维度。
  • 将特征映射到网络最后一层的logits的线性层。

3 结论/疑问

  • 创新点:双自监督方法,局部时空嵌入方法(对通道做了单独映射:构建 Codex Book: \(\{\mathcal{S_i\in \mathbb{R}^{d_e}}\}^M_{i=1}\),将通道 \(\{c_i\}^M_i\rightarrow \{\mathcal{S}_i\}^M_i\) ),微调的自适应空间滤波器

  • (P17)LabraM 参数更少表现且在 TUEV上表现更好。

    • (P6)TUAB 和 TUEV 的 Subject 是最多的。
  • 没有提到 summary token 怎样构造。

    • 解决:summary token = \(X^{cls}\)
  • 为什么要在下游任务使用 adaptive spatial filter

    • 解决:A.3和review已回答。
posted @ 2025-07-08 17:05  NeoAxiomN  阅读(163)  评论(0)    收藏  举报