【文献阅读】EEGPT：用于通用和可靠表示EEG信号的预训练Transfomer

EEGPT：用于通用和可靠表示EEG信号的预训练Transfomer

EEGPT: Pretrained Transformer for Universal and Reliable Representation of EEG Signals | OpenReview

1 概要

原文标题：EEGPT: Pretrained Transformer for Universal and Reliable Representation of EEG Signals

作者：哈尔滨工业大学计算机学院李海峰教授团队

期刊：NeurIPS 2024

主要贡献：

提出EEGPT，这是一个用于EEG通用特征提取的1000万参数模型，利用混合数据集来提高跨任务和跨被试的性能。
开发了一种用于EEG信号的双自监督方法（公式6），将时空表示对齐和基于掩模的重建相结合，提高了特征质量和收敛性。
设计用于空间和时间信息解耦处理的分层结构，降低计算复杂性，增强BCI应用的模型灵活性。
实施局部时空嵌入方法（对通道采取映射），提高不同EEG采集设备的鲁棒性和兼容性。
在下游数据集上进行全面的实验，证明EEGPT在多个EEG任务中明显优于现有模型，并且较大的模型表现出更好的性能。
- 任务：MI、EPR、睡眠质量检测

2 Method

掩码自动编码，通过最小化损失，模型能学习到输入 \(x\) 的最佳特征表示 \(z\)：

\[\min_{\theta,\phi} \mathbb{E}_{x \sim D} H (d_\phi(z), x \odot (1 - M)), z = f_\theta(x \odot M) \]

但在BERT类型的模型里编码器和解码器没有分开，必须微调定位到有效表示，即

\[d_\phi(z)=d_\phi(f_\theta(\cdot))=F(x\odot M) \]

于是添加了一个时空表示对齐分支来显式表示 \(z\)（多了\(\mathcal{H}(z,f_\theta(x))\)），称为双自监督方法，该方法鼓励编码表示具有更大程度的语义，参考Multi-View Entropy Bottleneck (MVEB)方法。

\[\min_{\theta,\phi} \underset{x \sim D}{\mathbb{E}} H (d_\phi(z), x \odot (1 - M)+H(z,f_\theta(x)), z = f_\theta(x \odot M) \]

双监督方法在模型里即为公式 \((6)\) 的 \(\mathcal{L}_A\) 损失。

2.1 时空表示对齐

Enocoder(ENC): 利用 summary token \(\{s_i\}^S_{i=1}\) 提取对掩码部分提取特征 \(enc_j\)， summary token 为自己设计。

\[enc_j=\text{ENC}\underset{(i,j)\in\mathcal{M}}{(\{token_{i,j}\})} \]

Predictor(PRED):

\(pos_j\) 是通过 rotary position embedding method 生成的。
只预测时间步

\[\underset{t\in\{1,2,...,N\}}{\{pred_t\}}=\text{PRED}(\underset{\exist i,(i,j)\in\mathcal{M}}{enc_j+pos_j}) \]

Momentum Encoder(MENC): 动量编码器 \(\text{MENC}\) 将所有在时间步 \(j\) 的 \(\text{token}_{i,j}\) 的完整集合（\(\mathcal{M}+\mathcal{\bar{M}}\)）作为输入，并生成对应的输出表示 \(menc_j\)。

\[menc_j=\text{MENC}(\underset{(i,j)\in\mathcal{M}\cup\overline{\mathcal{M}}}{(\{token_{i,j}\})}) \]

时空表示对齐损失：

\[\mathcal{L}_A=-\frac{1}{N}\sum^N_{j=1}{||pred_j,\text{LN}(menc_j)||}^2_2 \quad (6) \]

2.2 掩码重构

Reconstructor(REC):

掩码重构损失：

\[\mathcal{L}_R=-\frac{1}{|\overline{\mathcal{M}}|}\sum^N_{j=1}{||rec_{i,j},\text{LN}(p_{i,j})||}^2_2 \]

2.3 局部时空嵌入

将EEG信号 \(X\in\mathbb{R}^{M\times T}\) 按通道表示，即 \(\{c_i\}^M_{i=1}\)，分为 \(N\) 个 patches: \(p_{i,j}\in\mathbb{R}^d,i\in[1,M],j\in[1,N]\).
构建 Codex Book: \(\{\mathcal{S_i\in \mathbb{R}^{d_e}}\}^M_{i=1}\)，将通道 \(\{c_i\}^M_i\rightarrow \{\mathcal{S}_i\}^M_i\)
最后：\(token_{i,j}\in\mathbb{R}^{d_e}\)

\[Embed(p_{i,j})=p_{i,j}*W_p+b_p\\ token_{i,j}=\underset{时间嵌入}{Embed(p_{i,j})}+\underset{空间嵌入}{\mathcal{S}_i} \]

2.4 微调方法：线性探针（Adapter Tuning）

\(1\times 1\text{conv}\) + 预训练模型（Frozen）+ Linear

用于对齐EEG和模型之间通道的自适应空间滤波器（\(1\times 1\text{conv}\)）：保留时间维度不变，将通道维度映射到模型的通道维度。
将特征映射到网络最后一层的logits的线性层。

3 结论/疑问

创新点：双自监督方法，局部时空嵌入方法（对通道做了单独映射：构建 Codex Book: \(\{\mathcal{S_i\in \mathbb{R}^{d_e}}\}^M_{i=1}\)，将通道 \(\{c_i\}^M_i\rightarrow \{\mathcal{S}_i\}^M_i\) ），微调的自适应空间滤波器。
（P17）LabraM 参数更少表现且在 TUEV上表现更好。
- （P6）TUAB 和 TUEV 的 Subject 是最多的。
没有提到 summary token 怎样构造。
- 解决：summary token = \(X^{cls}\)
为什么要在下游任务使用 adaptive spatial filter
- 解决：A.3和review已回答。

posted @ 2025-07-08 17:05 NeoAxiomN 阅读(281) 评论(0) 收藏举报

刷新页面返回顶部

Neoaxiomn